{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.20544,
  "global_step": 321000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 5e-06,
      "loss": 12.0776,
      "step": 100
    },
    {
      "epoch": 0.0,
      "learning_rate": 1e-05,
      "loss": 10.423,
      "step": 200
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.5e-05,
      "loss": 8.4652,
      "step": 300
    },
    {
      "epoch": 0.0,
      "learning_rate": 2e-05,
      "loss": 7.1888,
      "step": 400
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.5e-05,
      "loss": 6.3789,
      "step": 500
    },
    {
      "epoch": 0.0,
      "learning_rate": 3e-05,
      "loss": 5.7605,
      "step": 600
    },
    {
      "epoch": 0.0,
      "learning_rate": 3.5e-05,
      "loss": 5.3211,
      "step": 700
    },
    {
      "epoch": 0.0,
      "learning_rate": 4e-05,
      "loss": 4.9551,
      "step": 800
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.5e-05,
      "loss": 4.6776,
      "step": 900
    },
    {
      "epoch": 0.0,
      "learning_rate": 5e-05,
      "loss": 4.463,
      "step": 1000
    },
    {
      "epoch": 0.0,
      "eval_loss": 3.055302858352661,
      "eval_runtime": 102.6679,
      "eval_samples_per_second": 97.401,
      "eval_steps_per_second": 6.088,
      "step": 1000
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.999679795068844e-05,
      "loss": 4.3009,
      "step": 1100
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.999359590137688e-05,
      "loss": 4.1519,
      "step": 1200
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.999039385206533e-05,
      "loss": 4.0722,
      "step": 1300
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.998719180275376e-05,
      "loss": 3.9862,
      "step": 1400
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.998398975344221e-05,
      "loss": 3.9055,
      "step": 1500
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.998078770413064e-05,
      "loss": 3.859,
      "step": 1600
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.997758565481909e-05,
      "loss": 3.8076,
      "step": 1700
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.997438360550753e-05,
      "loss": 3.7489,
      "step": 1800
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.997118155619597e-05,
      "loss": 3.7251,
      "step": 1900
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.996797950688441e-05,
      "loss": 3.7049,
      "step": 2000
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.7874953746795654,
      "eval_runtime": 102.1941,
      "eval_samples_per_second": 97.853,
      "eval_steps_per_second": 6.116,
      "step": 2000
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9964777457572846e-05,
      "loss": 3.6551,
      "step": 2100
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.996157540826129e-05,
      "loss": 3.6079,
      "step": 2200
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9958373358949726e-05,
      "loss": 3.5967,
      "step": 2300
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.995517130963817e-05,
      "loss": 3.5441,
      "step": 2400
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.995196926032661e-05,
      "loss": 3.5431,
      "step": 2500
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.994876721101505e-05,
      "loss": 3.522,
      "step": 2600
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.994556516170349e-05,
      "loss": 3.5115,
      "step": 2700
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.994236311239193e-05,
      "loss": 3.4867,
      "step": 2800
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.993916106308038e-05,
      "loss": 3.4595,
      "step": 2900
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.993595901376881e-05,
      "loss": 3.411,
      "step": 3000
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.702270984649658,
      "eval_runtime": 99.8612,
      "eval_samples_per_second": 100.139,
      "eval_steps_per_second": 6.259,
      "step": 3000
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.993275696445726e-05,
      "loss": 3.3784,
      "step": 3100
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.992955491514569e-05,
      "loss": 3.4114,
      "step": 3200
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.992635286583414e-05,
      "loss": 3.377,
      "step": 3300
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9923150816522576e-05,
      "loss": 3.3476,
      "step": 3400
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9919948767211016e-05,
      "loss": 3.3354,
      "step": 3500
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.991674671789946e-05,
      "loss": 3.2995,
      "step": 3600
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9913544668587896e-05,
      "loss": 3.3156,
      "step": 3700
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.991034261927634e-05,
      "loss": 3.3111,
      "step": 3800
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9907140569964775e-05,
      "loss": 3.3046,
      "step": 3900
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.990393852065322e-05,
      "loss": 3.283,
      "step": 4000
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.6186301708221436,
      "eval_runtime": 103.5612,
      "eval_samples_per_second": 96.561,
      "eval_steps_per_second": 6.035,
      "step": 4000
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.990073647134166e-05,
      "loss": 3.2635,
      "step": 4100
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.98975344220301e-05,
      "loss": 3.2328,
      "step": 4200
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.989433237271854e-05,
      "loss": 3.2291,
      "step": 4300
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.989113032340698e-05,
      "loss": 3.2353,
      "step": 4400
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.988792827409543e-05,
      "loss": 3.2549,
      "step": 4500
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.988472622478386e-05,
      "loss": 3.2178,
      "step": 4600
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9881524175472307e-05,
      "loss": 3.2364,
      "step": 4700
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.987832212616074e-05,
      "loss": 3.1717,
      "step": 4800
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9875120076849186e-05,
      "loss": 3.209,
      "step": 4900
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9871918027537626e-05,
      "loss": 3.1876,
      "step": 5000
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.5960092544555664,
      "eval_runtime": 102.3247,
      "eval_samples_per_second": 97.728,
      "eval_steps_per_second": 6.108,
      "step": 5000
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9868715978226066e-05,
      "loss": 3.1871,
      "step": 5100
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.986551392891451e-05,
      "loss": 3.1728,
      "step": 5200
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9862311879602945e-05,
      "loss": 3.1762,
      "step": 5300
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.985910983029139e-05,
      "loss": 3.1826,
      "step": 5400
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9855907780979825e-05,
      "loss": 3.1674,
      "step": 5500
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.985270573166827e-05,
      "loss": 3.1337,
      "step": 5600
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.984950368235671e-05,
      "loss": 3.163,
      "step": 5700
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.984630163304515e-05,
      "loss": 3.1319,
      "step": 5800
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.984309958373359e-05,
      "loss": 3.1164,
      "step": 5900
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.983989753442203e-05,
      "loss": 3.1441,
      "step": 6000
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.5549938678741455,
      "eval_runtime": 101.6392,
      "eval_samples_per_second": 98.387,
      "eval_steps_per_second": 6.149,
      "step": 6000
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9836695485110477e-05,
      "loss": 3.1373,
      "step": 6100
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.983349343579891e-05,
      "loss": 3.1365,
      "step": 6200
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9830291386487356e-05,
      "loss": 3.1172,
      "step": 6300
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9827089337175796e-05,
      "loss": 3.1223,
      "step": 6400
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9823887287864235e-05,
      "loss": 3.1157,
      "step": 6500
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9820685238552675e-05,
      "loss": 3.0901,
      "step": 6600
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9817483189241115e-05,
      "loss": 3.1073,
      "step": 6700
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.981428113992956e-05,
      "loss": 3.0665,
      "step": 6800
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9811079090617994e-05,
      "loss": 3.0938,
      "step": 6900
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.980787704130644e-05,
      "loss": 3.093,
      "step": 7000
    },
    {
      "epoch": 0.0,
      "eval_loss": 2.543382167816162,
      "eval_runtime": 101.5609,
      "eval_samples_per_second": 98.463,
      "eval_steps_per_second": 6.154,
      "step": 7000
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.980467499199488e-05,
      "loss": 3.0944,
      "step": 7100
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.980147294268332e-05,
      "loss": 3.056,
      "step": 7200
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.979827089337176e-05,
      "loss": 3.0404,
      "step": 7300
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.97950688440602e-05,
      "loss": 3.0572,
      "step": 7400
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.979186679474864e-05,
      "loss": 3.0837,
      "step": 7500
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.978866474543708e-05,
      "loss": 3.0563,
      "step": 7600
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.9785462696125526e-05,
      "loss": 3.0604,
      "step": 7700
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.978226064681396e-05,
      "loss": 3.0318,
      "step": 7800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9779058597502405e-05,
      "loss": 3.0326,
      "step": 7900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9775856548190845e-05,
      "loss": 3.0538,
      "step": 8000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.519292116165161,
      "eval_runtime": 105.0544,
      "eval_samples_per_second": 95.189,
      "eval_steps_per_second": 5.949,
      "step": 8000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9772654498879285e-05,
      "loss": 3.0316,
      "step": 8100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9769452449567725e-05,
      "loss": 3.0283,
      "step": 8200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9766250400256164e-05,
      "loss": 3.0324,
      "step": 8300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.976304835094461e-05,
      "loss": 3.0192,
      "step": 8400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9759846301633044e-05,
      "loss": 3.0407,
      "step": 8500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.975664425232149e-05,
      "loss": 3.0119,
      "step": 8600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.975344220300993e-05,
      "loss": 2.9664,
      "step": 8700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.975024015369837e-05,
      "loss": 2.9976,
      "step": 8800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.974703810438681e-05,
      "loss": 3.0008,
      "step": 8900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.974383605507525e-05,
      "loss": 3.0085,
      "step": 9000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.503854990005493,
      "eval_runtime": 105.6349,
      "eval_samples_per_second": 94.666,
      "eval_steps_per_second": 5.917,
      "step": 9000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.974063400576369e-05,
      "loss": 3.0105,
      "step": 9100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.973743195645213e-05,
      "loss": 3.0191,
      "step": 9200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9734229907140575e-05,
      "loss": 3.0038,
      "step": 9300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9731027857829015e-05,
      "loss": 3.0032,
      "step": 9400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9727825808517455e-05,
      "loss": 3.0325,
      "step": 9500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9724623759205894e-05,
      "loss": 3.0065,
      "step": 9600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9721421709894334e-05,
      "loss": 2.9935,
      "step": 9700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9718219660582774e-05,
      "loss": 2.985,
      "step": 9800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9715017611271214e-05,
      "loss": 2.9834,
      "step": 9900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.971181556195966e-05,
      "loss": 2.9669,
      "step": 10000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.4886770248413086,
      "eval_runtime": 102.4376,
      "eval_samples_per_second": 97.62,
      "eval_steps_per_second": 6.101,
      "step": 10000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.970861351264809e-05,
      "loss": 3.0002,
      "step": 10100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.970541146333654e-05,
      "loss": 2.9886,
      "step": 10200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.970220941402498e-05,
      "loss": 2.9716,
      "step": 10300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.969900736471342e-05,
      "loss": 2.9837,
      "step": 10400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.969580531540186e-05,
      "loss": 2.983,
      "step": 10500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.96926032660903e-05,
      "loss": 2.955,
      "step": 10600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.968940121677874e-05,
      "loss": 2.978,
      "step": 10700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.968619916746718e-05,
      "loss": 2.9557,
      "step": 10800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9682997118155625e-05,
      "loss": 2.9568,
      "step": 10900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9679795068844064e-05,
      "loss": 2.9406,
      "step": 11000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.4689841270446777,
      "eval_runtime": 103.498,
      "eval_samples_per_second": 96.62,
      "eval_steps_per_second": 6.039,
      "step": 11000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9676593019532504e-05,
      "loss": 2.9555,
      "step": 11100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9673390970220944e-05,
      "loss": 2.9682,
      "step": 11200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9670188920909384e-05,
      "loss": 2.9128,
      "step": 11300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.966698687159782e-05,
      "loss": 2.9246,
      "step": 11400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.966378482228626e-05,
      "loss": 2.9523,
      "step": 11500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.966058277297471e-05,
      "loss": 2.9536,
      "step": 11600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.965738072366315e-05,
      "loss": 2.9274,
      "step": 11700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.965417867435159e-05,
      "loss": 2.9394,
      "step": 11800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.965097662504003e-05,
      "loss": 2.929,
      "step": 11900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.964777457572847e-05,
      "loss": 2.9428,
      "step": 12000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.455015182495117,
      "eval_runtime": 100.4572,
      "eval_samples_per_second": 99.545,
      "eval_steps_per_second": 6.222,
      "step": 12000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.964457252641691e-05,
      "loss": 2.9147,
      "step": 12100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.964137047710535e-05,
      "loss": 2.9126,
      "step": 12200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.963816842779379e-05,
      "loss": 2.9141,
      "step": 12300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.963496637848223e-05,
      "loss": 2.917,
      "step": 12400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9631764329170674e-05,
      "loss": 2.903,
      "step": 12500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9628562279859114e-05,
      "loss": 2.8986,
      "step": 12600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9625360230547553e-05,
      "loss": 2.9155,
      "step": 12700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.962215818123599e-05,
      "loss": 2.9017,
      "step": 12800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.961895613192443e-05,
      "loss": 2.8936,
      "step": 12900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.961575408261287e-05,
      "loss": 2.9089,
      "step": 13000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.4331114292144775,
      "eval_runtime": 101.0111,
      "eval_samples_per_second": 98.999,
      "eval_steps_per_second": 6.187,
      "step": 13000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.961255203330131e-05,
      "loss": 2.8908,
      "step": 13100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.960934998398976e-05,
      "loss": 2.9128,
      "step": 13200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.96061479346782e-05,
      "loss": 2.9255,
      "step": 13300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.960294588536664e-05,
      "loss": 2.8898,
      "step": 13400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.959974383605508e-05,
      "loss": 2.896,
      "step": 13500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.959654178674352e-05,
      "loss": 2.886,
      "step": 13600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.959333973743196e-05,
      "loss": 2.9118,
      "step": 13700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.95901376881204e-05,
      "loss": 2.8843,
      "step": 13800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.958693563880884e-05,
      "loss": 2.9008,
      "step": 13900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9583733589497284e-05,
      "loss": 2.8672,
      "step": 14000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.424356460571289,
      "eval_runtime": 100.8931,
      "eval_samples_per_second": 99.115,
      "eval_steps_per_second": 6.195,
      "step": 14000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.958053154018572e-05,
      "loss": 2.8983,
      "step": 14100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.957732949087416e-05,
      "loss": 2.9037,
      "step": 14200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.95741274415626e-05,
      "loss": 2.8678,
      "step": 14300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.957092539225104e-05,
      "loss": 2.8734,
      "step": 14400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.956772334293948e-05,
      "loss": 2.8902,
      "step": 14500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.956452129362792e-05,
      "loss": 2.8758,
      "step": 14600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.956131924431636e-05,
      "loss": 2.8599,
      "step": 14700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.955811719500481e-05,
      "loss": 2.8719,
      "step": 14800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.955491514569325e-05,
      "loss": 2.8774,
      "step": 14900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.955171309638169e-05,
      "loss": 2.8792,
      "step": 15000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.409083604812622,
      "eval_runtime": 100.862,
      "eval_samples_per_second": 99.145,
      "eval_steps_per_second": 6.197,
      "step": 15000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.954851104707013e-05,
      "loss": 2.851,
      "step": 15100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.954530899775857e-05,
      "loss": 2.8318,
      "step": 15200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.954210694844701e-05,
      "loss": 2.863,
      "step": 15300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.953890489913545e-05,
      "loss": 2.8408,
      "step": 15400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9535702849823886e-05,
      "loss": 2.8459,
      "step": 15500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.953250080051233e-05,
      "loss": 2.8531,
      "step": 15600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.952929875120077e-05,
      "loss": 2.8725,
      "step": 15700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.952609670188921e-05,
      "loss": 2.8539,
      "step": 15800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.952289465257765e-05,
      "loss": 2.8545,
      "step": 15900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.951969260326609e-05,
      "loss": 2.8466,
      "step": 16000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.39548397064209,
      "eval_runtime": 106.8706,
      "eval_samples_per_second": 93.571,
      "eval_steps_per_second": 5.848,
      "step": 16000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.951649055395453e-05,
      "loss": 2.8712,
      "step": 16100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.951328850464297e-05,
      "loss": 2.8643,
      "step": 16200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.951008645533142e-05,
      "loss": 2.8234,
      "step": 16300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.950688440601986e-05,
      "loss": 2.8486,
      "step": 16400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.95036823567083e-05,
      "loss": 2.8392,
      "step": 16500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.950048030739674e-05,
      "loss": 2.8399,
      "step": 16600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.949727825808518e-05,
      "loss": 2.8095,
      "step": 16700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.949407620877362e-05,
      "loss": 2.844,
      "step": 16800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9490874159462056e-05,
      "loss": 2.8469,
      "step": 16900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.94876721101505e-05,
      "loss": 2.8438,
      "step": 17000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.3912110328674316,
      "eval_runtime": 106.0386,
      "eval_samples_per_second": 94.305,
      "eval_steps_per_second": 5.894,
      "step": 17000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9484470060838936e-05,
      "loss": 2.8449,
      "step": 17100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.948126801152738e-05,
      "loss": 2.8221,
      "step": 17200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.947806596221582e-05,
      "loss": 2.8524,
      "step": 17300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.947486391290426e-05,
      "loss": 2.8333,
      "step": 17400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.94716618635927e-05,
      "loss": 2.8076,
      "step": 17500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.946845981428114e-05,
      "loss": 2.82,
      "step": 17600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.946525776496958e-05,
      "loss": 2.8315,
      "step": 17700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.946205571565802e-05,
      "loss": 2.8339,
      "step": 17800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.945885366634647e-05,
      "loss": 2.8369,
      "step": 17900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.945565161703491e-05,
      "loss": 2.8294,
      "step": 18000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.382240056991577,
      "eval_runtime": 112.9052,
      "eval_samples_per_second": 88.57,
      "eval_steps_per_second": 5.536,
      "step": 18000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.945244956772335e-05,
      "loss": 2.8188,
      "step": 18100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9449247518411787e-05,
      "loss": 2.8411,
      "step": 18200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9446045469100226e-05,
      "loss": 2.8144,
      "step": 18300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9442843419788666e-05,
      "loss": 2.7938,
      "step": 18400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9439641370477106e-05,
      "loss": 2.836,
      "step": 18500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.943643932116555e-05,
      "loss": 2.7796,
      "step": 18600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9433237271853985e-05,
      "loss": 2.7711,
      "step": 18700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.943003522254243e-05,
      "loss": 2.8067,
      "step": 18800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.942683317323087e-05,
      "loss": 2.8138,
      "step": 18900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.942363112391931e-05,
      "loss": 2.8142,
      "step": 19000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.3810715675354004,
      "eval_runtime": 107.4705,
      "eval_samples_per_second": 93.049,
      "eval_steps_per_second": 5.816,
      "step": 19000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.942042907460775e-05,
      "loss": 2.814,
      "step": 19100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.941722702529619e-05,
      "loss": 2.8044,
      "step": 19200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.941402497598464e-05,
      "loss": 2.7846,
      "step": 19300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.941082292667307e-05,
      "loss": 2.8097,
      "step": 19400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.940762087736152e-05,
      "loss": 2.7874,
      "step": 19500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9404418828049956e-05,
      "loss": 2.7981,
      "step": 19600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9401216778738396e-05,
      "loss": 2.7781,
      "step": 19700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9398014729426836e-05,
      "loss": 2.8294,
      "step": 19800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9394812680115276e-05,
      "loss": 2.7742,
      "step": 19900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9391610630803715e-05,
      "loss": 2.794,
      "step": 20000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.365391254425049,
      "eval_runtime": 100.7181,
      "eval_samples_per_second": 99.287,
      "eval_steps_per_second": 6.205,
      "step": 20000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9388408581492155e-05,
      "loss": 2.8038,
      "step": 20100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.93852065321806e-05,
      "loss": 2.7574,
      "step": 20200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9382004482869035e-05,
      "loss": 2.8073,
      "step": 20300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.937880243355748e-05,
      "loss": 2.7883,
      "step": 20400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.937560038424592e-05,
      "loss": 2.7738,
      "step": 20500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.937239833493436e-05,
      "loss": 2.763,
      "step": 20600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.93691962856228e-05,
      "loss": 2.7797,
      "step": 20700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.936599423631124e-05,
      "loss": 2.7667,
      "step": 20800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9362792186999687e-05,
      "loss": 2.7817,
      "step": 20900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.935959013768812e-05,
      "loss": 2.7815,
      "step": 21000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.361330509185791,
      "eval_runtime": 100.8355,
      "eval_samples_per_second": 99.171,
      "eval_steps_per_second": 6.198,
      "step": 21000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9356388088376566e-05,
      "loss": 2.7732,
      "step": 21100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9353186039065006e-05,
      "loss": 2.7828,
      "step": 21200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9349983989753446e-05,
      "loss": 2.7563,
      "step": 21300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9346781940441885e-05,
      "loss": 2.7757,
      "step": 21400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9343579891130325e-05,
      "loss": 2.7816,
      "step": 21500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.934037784181877e-05,
      "loss": 2.7567,
      "step": 21600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9337175792507204e-05,
      "loss": 2.7892,
      "step": 21700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.933397374319565e-05,
      "loss": 2.7648,
      "step": 21800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9330771693884084e-05,
      "loss": 2.7797,
      "step": 21900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.932756964457253e-05,
      "loss": 2.7492,
      "step": 22000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.3492636680603027,
      "eval_runtime": 100.4426,
      "eval_samples_per_second": 99.559,
      "eval_steps_per_second": 6.222,
      "step": 22000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.932436759526097e-05,
      "loss": 2.7701,
      "step": 22100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.932116554594941e-05,
      "loss": 2.7504,
      "step": 22200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.931796349663785e-05,
      "loss": 2.7725,
      "step": 22300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.931476144732629e-05,
      "loss": 2.7541,
      "step": 22400
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9311559398014736e-05,
      "loss": 2.7533,
      "step": 22500
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.930835734870317e-05,
      "loss": 2.76,
      "step": 22600
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9305155299391615e-05,
      "loss": 2.7685,
      "step": 22700
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9301953250080055e-05,
      "loss": 2.732,
      "step": 22800
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9298751200768495e-05,
      "loss": 2.7493,
      "step": 22900
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9295549151456935e-05,
      "loss": 2.7511,
      "step": 23000
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.349703788757324,
      "eval_runtime": 100.3733,
      "eval_samples_per_second": 99.628,
      "eval_steps_per_second": 6.227,
      "step": 23000
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9292347102145374e-05,
      "loss": 2.7369,
      "step": 23100
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.928914505283382e-05,
      "loss": 2.7496,
      "step": 23200
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.9285943003522254e-05,
      "loss": 2.7625,
      "step": 23300
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.92827409542107e-05,
      "loss": 2.7521,
      "step": 23400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.927953890489913e-05,
      "loss": 2.7449,
      "step": 23500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.927633685558758e-05,
      "loss": 2.7389,
      "step": 23600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.927313480627602e-05,
      "loss": 2.7751,
      "step": 23700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.926993275696446e-05,
      "loss": 2.7553,
      "step": 23800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9266730707652906e-05,
      "loss": 2.75,
      "step": 23900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.926352865834134e-05,
      "loss": 2.7581,
      "step": 24000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.33840274810791,
      "eval_runtime": 99.8711,
      "eval_samples_per_second": 100.129,
      "eval_steps_per_second": 6.258,
      "step": 24000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9260326609029785e-05,
      "loss": 2.7468,
      "step": 24100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.925712455971822e-05,
      "loss": 2.7525,
      "step": 24200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9253922510406665e-05,
      "loss": 2.7155,
      "step": 24300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9250720461095105e-05,
      "loss": 2.7385,
      "step": 24400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9247518411783544e-05,
      "loss": 2.7708,
      "step": 24500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9244316362471984e-05,
      "loss": 2.7255,
      "step": 24600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9241114313160424e-05,
      "loss": 2.7429,
      "step": 24700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.923791226384887e-05,
      "loss": 2.7439,
      "step": 24800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.92347102145373e-05,
      "loss": 2.7352,
      "step": 24900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.923150816522575e-05,
      "loss": 2.7019,
      "step": 25000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.327165126800537,
      "eval_runtime": 101.864,
      "eval_samples_per_second": 98.17,
      "eval_steps_per_second": 6.136,
      "step": 25000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.922830611591418e-05,
      "loss": 2.7149,
      "step": 25100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.922510406660263e-05,
      "loss": 2.7437,
      "step": 25200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.922190201729107e-05,
      "loss": 2.753,
      "step": 25300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.921869996797951e-05,
      "loss": 2.7228,
      "step": 25400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9215497918667955e-05,
      "loss": 2.7615,
      "step": 25500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.921229586935639e-05,
      "loss": 2.7241,
      "step": 25600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9209093820044835e-05,
      "loss": 2.7438,
      "step": 25700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.920589177073327e-05,
      "loss": 2.7308,
      "step": 25800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9202689721421714e-05,
      "loss": 2.7294,
      "step": 25900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9199487672110154e-05,
      "loss": 2.7333,
      "step": 26000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.322126865386963,
      "eval_runtime": 111.7266,
      "eval_samples_per_second": 89.504,
      "eval_steps_per_second": 5.594,
      "step": 26000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9196285622798594e-05,
      "loss": 2.7277,
      "step": 26100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.919308357348703e-05,
      "loss": 2.7334,
      "step": 26200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.918988152417547e-05,
      "loss": 2.7161,
      "step": 26300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.918667947486392e-05,
      "loss": 2.7232,
      "step": 26400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.918347742555235e-05,
      "loss": 2.7047,
      "step": 26500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.91802753762408e-05,
      "loss": 2.7102,
      "step": 26600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.917707332692923e-05,
      "loss": 2.7195,
      "step": 26700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.917387127761768e-05,
      "loss": 2.7446,
      "step": 26800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.917066922830612e-05,
      "loss": 2.7112,
      "step": 26900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.916746717899456e-05,
      "loss": 2.6911,
      "step": 27000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.3211708068847656,
      "eval_runtime": 106.8039,
      "eval_samples_per_second": 93.63,
      "eval_steps_per_second": 5.852,
      "step": 27000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9164265129683005e-05,
      "loss": 2.7029,
      "step": 27100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.916106308037144e-05,
      "loss": 2.732,
      "step": 27200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9157861031059884e-05,
      "loss": 2.7076,
      "step": 27300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.915465898174832e-05,
      "loss": 2.7234,
      "step": 27400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9151456932436764e-05,
      "loss": 2.6969,
      "step": 27500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9148254883125197e-05,
      "loss": 2.6801,
      "step": 27600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.914505283381364e-05,
      "loss": 2.7068,
      "step": 27700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.914185078450208e-05,
      "loss": 2.708,
      "step": 27800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.913864873519052e-05,
      "loss": 2.6984,
      "step": 27900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.913544668587897e-05,
      "loss": 2.7407,
      "step": 28000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.3193280696868896,
      "eval_runtime": 106.2965,
      "eval_samples_per_second": 94.077,
      "eval_steps_per_second": 5.88,
      "step": 28000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.91322446365674e-05,
      "loss": 2.6953,
      "step": 28100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.912904258725585e-05,
      "loss": 2.7127,
      "step": 28200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.912584053794428e-05,
      "loss": 2.7087,
      "step": 28300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.912263848863273e-05,
      "loss": 2.6856,
      "step": 28400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.911943643932117e-05,
      "loss": 2.7007,
      "step": 28500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.911623439000961e-05,
      "loss": 2.7069,
      "step": 28600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9113032340698054e-05,
      "loss": 2.6941,
      "step": 28700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.910983029138649e-05,
      "loss": 2.7333,
      "step": 28800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9106628242074933e-05,
      "loss": 2.6913,
      "step": 28900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9103426192763366e-05,
      "loss": 2.6945,
      "step": 29000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.3075075149536133,
      "eval_runtime": 103.9563,
      "eval_samples_per_second": 96.194,
      "eval_steps_per_second": 6.012,
      "step": 29000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.910022414345181e-05,
      "loss": 2.679,
      "step": 29100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.909702209414025e-05,
      "loss": 2.7139,
      "step": 29200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.909382004482869e-05,
      "loss": 2.7051,
      "step": 29300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.909061799551713e-05,
      "loss": 2.6898,
      "step": 29400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.908741594620557e-05,
      "loss": 2.672,
      "step": 29500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.908421389689402e-05,
      "loss": 2.7041,
      "step": 29600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.908101184758245e-05,
      "loss": 2.6909,
      "step": 29700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.90778097982709e-05,
      "loss": 2.6934,
      "step": 29800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.907460774895933e-05,
      "loss": 2.689,
      "step": 29900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.907140569964778e-05,
      "loss": 2.6885,
      "step": 30000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.3027384281158447,
      "eval_runtime": 102.5441,
      "eval_samples_per_second": 97.519,
      "eval_steps_per_second": 6.095,
      "step": 30000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.906820365033622e-05,
      "loss": 2.6877,
      "step": 30100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.906500160102466e-05,
      "loss": 2.6766,
      "step": 30200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.90617995517131e-05,
      "loss": 2.6937,
      "step": 30300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9058597502401536e-05,
      "loss": 2.6536,
      "step": 30400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.905539545308998e-05,
      "loss": 2.6819,
      "step": 30500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9052193403778416e-05,
      "loss": 2.684,
      "step": 30600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.904899135446686e-05,
      "loss": 2.6898,
      "step": 30700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.90457893051553e-05,
      "loss": 2.6822,
      "step": 30800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.904258725584374e-05,
      "loss": 2.6759,
      "step": 30900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.903938520653218e-05,
      "loss": 2.7045,
      "step": 31000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.3003547191619873,
      "eval_runtime": 100.4915,
      "eval_samples_per_second": 99.511,
      "eval_steps_per_second": 6.219,
      "step": 31000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.903618315722062e-05,
      "loss": 2.7023,
      "step": 31100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.903298110790907e-05,
      "loss": 2.6794,
      "step": 31200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.90297790585975e-05,
      "loss": 2.662,
      "step": 31300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.902657700928595e-05,
      "loss": 2.6557,
      "step": 31400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.902337495997439e-05,
      "loss": 2.6593,
      "step": 31500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.902017291066283e-05,
      "loss": 2.664,
      "step": 31600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9016970861351266e-05,
      "loss": 2.6812,
      "step": 31700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9013768812039706e-05,
      "loss": 2.6545,
      "step": 31800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.901056676272815e-05,
      "loss": 2.6894,
      "step": 31900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9007364713416586e-05,
      "loss": 2.6967,
      "step": 32000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.2954583168029785,
      "eval_runtime": 99.9794,
      "eval_samples_per_second": 100.021,
      "eval_steps_per_second": 6.251,
      "step": 32000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.900416266410503e-05,
      "loss": 2.6688,
      "step": 32100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.9000960614793465e-05,
      "loss": 2.6792,
      "step": 32200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.899775856548191e-05,
      "loss": 2.657,
      "step": 32300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.899455651617035e-05,
      "loss": 2.6821,
      "step": 32400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.899135446685879e-05,
      "loss": 2.6796,
      "step": 32500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.898815241754723e-05,
      "loss": 2.688,
      "step": 32600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.898495036823567e-05,
      "loss": 2.6935,
      "step": 32700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.898174831892412e-05,
      "loss": 2.6732,
      "step": 32800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.897854626961255e-05,
      "loss": 2.6616,
      "step": 32900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8975344220300997e-05,
      "loss": 2.6824,
      "step": 33000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.2929234504699707,
      "eval_runtime": 100.2008,
      "eval_samples_per_second": 99.8,
      "eval_steps_per_second": 6.237,
      "step": 33000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8972142170989436e-05,
      "loss": 2.6496,
      "step": 33100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8968940121677876e-05,
      "loss": 2.6721,
      "step": 33200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8965738072366316e-05,
      "loss": 2.6565,
      "step": 33300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8962536023054756e-05,
      "loss": 2.6766,
      "step": 33400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.89593339737432e-05,
      "loss": 2.714,
      "step": 33500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8956131924431635e-05,
      "loss": 2.6632,
      "step": 33600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.895292987512008e-05,
      "loss": 2.6508,
      "step": 33700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.894972782580852e-05,
      "loss": 2.6515,
      "step": 33800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.894652577649696e-05,
      "loss": 2.6726,
      "step": 33900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.89433237271854e-05,
      "loss": 2.671,
      "step": 34000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.2901768684387207,
      "eval_runtime": 101.517,
      "eval_samples_per_second": 98.506,
      "eval_steps_per_second": 6.157,
      "step": 34000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.894012167787384e-05,
      "loss": 2.6581,
      "step": 34100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.893691962856228e-05,
      "loss": 2.6518,
      "step": 34200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.893371757925072e-05,
      "loss": 2.6591,
      "step": 34300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8930515529939166e-05,
      "loss": 2.6481,
      "step": 34400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8927313480627606e-05,
      "loss": 2.6516,
      "step": 34500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8924111431316046e-05,
      "loss": 2.6637,
      "step": 34600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8920909382004486e-05,
      "loss": 2.6602,
      "step": 34700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8917707332692925e-05,
      "loss": 2.6477,
      "step": 34800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8914505283381365e-05,
      "loss": 2.6361,
      "step": 34900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8911303234069805e-05,
      "loss": 2.6531,
      "step": 35000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.2963526248931885,
      "eval_runtime": 107.2332,
      "eval_samples_per_second": 93.255,
      "eval_steps_per_second": 5.828,
      "step": 35000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.890810118475825e-05,
      "loss": 2.6575,
      "step": 35100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8904899135446684e-05,
      "loss": 2.6611,
      "step": 35200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.890169708613513e-05,
      "loss": 2.6185,
      "step": 35300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.889849503682357e-05,
      "loss": 2.6616,
      "step": 35400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.889529298751201e-05,
      "loss": 2.6432,
      "step": 35500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.889209093820045e-05,
      "loss": 2.673,
      "step": 35600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.888888888888889e-05,
      "loss": 2.6686,
      "step": 35700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.888568683957733e-05,
      "loss": 2.6688,
      "step": 35800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.888248479026577e-05,
      "loss": 2.6505,
      "step": 35900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8879282740954216e-05,
      "loss": 2.664,
      "step": 36000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.2803845405578613,
      "eval_runtime": 107.7243,
      "eval_samples_per_second": 92.83,
      "eval_steps_per_second": 5.802,
      "step": 36000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8876080691642656e-05,
      "loss": 2.6565,
      "step": 36100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8872878642331095e-05,
      "loss": 2.6169,
      "step": 36200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8869676593019535e-05,
      "loss": 2.6406,
      "step": 36300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8866474543707975e-05,
      "loss": 2.6401,
      "step": 36400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8863272494396415e-05,
      "loss": 2.636,
      "step": 36500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8860070445084854e-05,
      "loss": 2.6303,
      "step": 36600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.88568683957733e-05,
      "loss": 2.6302,
      "step": 36700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.885366634646174e-05,
      "loss": 2.6606,
      "step": 36800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.885046429715018e-05,
      "loss": 2.6135,
      "step": 36900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.884726224783862e-05,
      "loss": 2.6332,
      "step": 37000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.2844154834747314,
      "eval_runtime": 112.1418,
      "eval_samples_per_second": 89.173,
      "eval_steps_per_second": 5.573,
      "step": 37000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.884406019852706e-05,
      "loss": 2.6461,
      "step": 37100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.88408581492155e-05,
      "loss": 2.6649,
      "step": 37200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.883765609990394e-05,
      "loss": 2.654,
      "step": 37300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.883445405059238e-05,
      "loss": 2.6404,
      "step": 37400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.883125200128082e-05,
      "loss": 2.6123,
      "step": 37500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8828049951969265e-05,
      "loss": 2.6273,
      "step": 37600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8824847902657705e-05,
      "loss": 2.6196,
      "step": 37700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8821645853346145e-05,
      "loss": 2.6112,
      "step": 37800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8818443804034584e-05,
      "loss": 2.6311,
      "step": 37900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8815241754723024e-05,
      "loss": 2.6318,
      "step": 38000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.2788329124450684,
      "eval_runtime": 104.979,
      "eval_samples_per_second": 95.257,
      "eval_steps_per_second": 5.954,
      "step": 38000
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8812039705411464e-05,
      "loss": 2.652,
      "step": 38100
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.8808837656099904e-05,
      "loss": 2.6394,
      "step": 38200
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.880563560678835e-05,
      "loss": 2.6468,
      "step": 38300
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.880243355747679e-05,
      "loss": 2.6193,
      "step": 38400
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.879923150816523e-05,
      "loss": 2.6568,
      "step": 38500
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.879602945885367e-05,
      "loss": 2.6407,
      "step": 38600
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.879282740954211e-05,
      "loss": 2.637,
      "step": 38700
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.878962536023055e-05,
      "loss": 2.6179,
      "step": 38800
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.878642331091899e-05,
      "loss": 2.6165,
      "step": 38900
    },
    {
      "epoch": 0.02,
      "learning_rate": 4.878322126160743e-05,
      "loss": 2.6137,
      "step": 39000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.2721168994903564,
      "eval_runtime": 105.0085,
      "eval_samples_per_second": 95.23,
      "eval_steps_per_second": 5.952,
      "step": 39000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8780019212295875e-05,
      "loss": 2.6307,
      "step": 39100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8776817162984315e-05,
      "loss": 2.6555,
      "step": 39200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8773615113672754e-05,
      "loss": 2.6343,
      "step": 39300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8770413064361194e-05,
      "loss": 2.6366,
      "step": 39400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8767211015049634e-05,
      "loss": 2.6346,
      "step": 39500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8764008965738074e-05,
      "loss": 2.6026,
      "step": 39600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.876080691642651e-05,
      "loss": 2.6109,
      "step": 39700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.875760486711495e-05,
      "loss": 2.6188,
      "step": 39800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.87544028178034e-05,
      "loss": 2.5977,
      "step": 39900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.875120076849184e-05,
      "loss": 2.6266,
      "step": 40000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.269322633743286,
      "eval_runtime": 99.9236,
      "eval_samples_per_second": 100.076,
      "eval_steps_per_second": 6.255,
      "step": 40000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.874799871918028e-05,
      "loss": 2.6353,
      "step": 40100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.874479666986872e-05,
      "loss": 2.6339,
      "step": 40200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.874159462055716e-05,
      "loss": 2.6033,
      "step": 40300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.87383925712456e-05,
      "loss": 2.6604,
      "step": 40400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.873519052193404e-05,
      "loss": 2.6462,
      "step": 40500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.873198847262248e-05,
      "loss": 2.6281,
      "step": 40600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8728786423310924e-05,
      "loss": 2.6355,
      "step": 40700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8725584373999364e-05,
      "loss": 2.5937,
      "step": 40800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8722382324687804e-05,
      "loss": 2.6352,
      "step": 40900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8719180275376243e-05,
      "loss": 2.6088,
      "step": 41000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.267585039138794,
      "eval_runtime": 99.6192,
      "eval_samples_per_second": 100.382,
      "eval_steps_per_second": 6.274,
      "step": 41000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.871597822606468e-05,
      "loss": 2.6075,
      "step": 41100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.871277617675312e-05,
      "loss": 2.5953,
      "step": 41200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.870957412744156e-05,
      "loss": 2.5926,
      "step": 41300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.870637207813001e-05,
      "loss": 2.5963,
      "step": 41400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.870317002881845e-05,
      "loss": 2.616,
      "step": 41500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.869996797950689e-05,
      "loss": 2.6314,
      "step": 41600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.869676593019533e-05,
      "loss": 2.6312,
      "step": 41700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.869356388088377e-05,
      "loss": 2.6154,
      "step": 41800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.869036183157221e-05,
      "loss": 2.6283,
      "step": 41900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.868715978226065e-05,
      "loss": 2.6123,
      "step": 42000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.263378143310547,
      "eval_runtime": 101.2599,
      "eval_samples_per_second": 98.756,
      "eval_steps_per_second": 6.172,
      "step": 42000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.868395773294909e-05,
      "loss": 2.6197,
      "step": 42100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.868075568363753e-05,
      "loss": 2.6366,
      "step": 42200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8677553634325974e-05,
      "loss": 2.607,
      "step": 42300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.867435158501441e-05,
      "loss": 2.6091,
      "step": 42400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.867114953570285e-05,
      "loss": 2.6305,
      "step": 42500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.866794748639129e-05,
      "loss": 2.5988,
      "step": 42600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.866474543707973e-05,
      "loss": 2.589,
      "step": 42700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.866154338776817e-05,
      "loss": 2.6032,
      "step": 42800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.865834133845661e-05,
      "loss": 2.6244,
      "step": 42900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.865513928914506e-05,
      "loss": 2.6088,
      "step": 43000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.2600371837615967,
      "eval_runtime": 99.8875,
      "eval_samples_per_second": 100.113,
      "eval_steps_per_second": 6.257,
      "step": 43000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.86519372398335e-05,
      "loss": 2.5983,
      "step": 43100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.864873519052194e-05,
      "loss": 2.593,
      "step": 43200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.864553314121038e-05,
      "loss": 2.6139,
      "step": 43300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.864233109189882e-05,
      "loss": 2.5844,
      "step": 43400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.863912904258726e-05,
      "loss": 2.5999,
      "step": 43500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.86359269932757e-05,
      "loss": 2.5983,
      "step": 43600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8632724943964144e-05,
      "loss": 2.5989,
      "step": 43700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8629522894652576e-05,
      "loss": 2.5869,
      "step": 43800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.862632084534102e-05,
      "loss": 2.5839,
      "step": 43900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.862311879602946e-05,
      "loss": 2.6372,
      "step": 44000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.2516398429870605,
      "eval_runtime": 99.9319,
      "eval_samples_per_second": 100.068,
      "eval_steps_per_second": 6.254,
      "step": 44000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.86199167467179e-05,
      "loss": 2.6121,
      "step": 44100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.861671469740634e-05,
      "loss": 2.6151,
      "step": 44200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.861351264809478e-05,
      "loss": 2.5974,
      "step": 44300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.861031059878323e-05,
      "loss": 2.6107,
      "step": 44400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.860710854947166e-05,
      "loss": 2.615,
      "step": 44500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.860390650016011e-05,
      "loss": 2.6366,
      "step": 44600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.860070445084855e-05,
      "loss": 2.5844,
      "step": 44700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.859750240153699e-05,
      "loss": 2.5956,
      "step": 44800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.859430035222543e-05,
      "loss": 2.6165,
      "step": 44900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.859109830291387e-05,
      "loss": 2.5914,
      "step": 45000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.2489194869995117,
      "eval_runtime": 102.4205,
      "eval_samples_per_second": 97.637,
      "eval_steps_per_second": 6.102,
      "step": 45000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.858789625360231e-05,
      "loss": 2.6111,
      "step": 45100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8584694204290746e-05,
      "loss": 2.5827,
      "step": 45200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.858149215497919e-05,
      "loss": 2.5684,
      "step": 45300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8578290105667626e-05,
      "loss": 2.5893,
      "step": 45400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.857508805635607e-05,
      "loss": 2.6106,
      "step": 45500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.857188600704451e-05,
      "loss": 2.5872,
      "step": 45600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.856868395773295e-05,
      "loss": 2.5974,
      "step": 45700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.856548190842139e-05,
      "loss": 2.6015,
      "step": 45800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.856227985910983e-05,
      "loss": 2.5831,
      "step": 45900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.855907780979828e-05,
      "loss": 2.5738,
      "step": 46000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.250044822692871,
      "eval_runtime": 106.8726,
      "eval_samples_per_second": 93.569,
      "eval_steps_per_second": 5.848,
      "step": 46000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.855587576048671e-05,
      "loss": 2.574,
      "step": 46100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.855267371117516e-05,
      "loss": 2.5973,
      "step": 46200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.854947166186359e-05,
      "loss": 2.5859,
      "step": 46300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.854626961255204e-05,
      "loss": 2.5899,
      "step": 46400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8543067563240477e-05,
      "loss": 2.5685,
      "step": 46500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8539865513928916e-05,
      "loss": 2.6088,
      "step": 46600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.853666346461736e-05,
      "loss": 2.5913,
      "step": 46700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8533461415305796e-05,
      "loss": 2.5759,
      "step": 46800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.853025936599424e-05,
      "loss": 2.6032,
      "step": 46900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8527057316682675e-05,
      "loss": 2.5663,
      "step": 47000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.246882200241089,
      "eval_runtime": 114.264,
      "eval_samples_per_second": 87.517,
      "eval_steps_per_second": 5.47,
      "step": 47000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.852385526737112e-05,
      "loss": 2.5938,
      "step": 47100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.852065321805956e-05,
      "loss": 2.5591,
      "step": 47200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8517451168748e-05,
      "loss": 2.6138,
      "step": 47300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.851424911943644e-05,
      "loss": 2.5856,
      "step": 47400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.851104707012488e-05,
      "loss": 2.5901,
      "step": 47500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.850784502081333e-05,
      "loss": 2.588,
      "step": 47600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.850464297150176e-05,
      "loss": 2.5796,
      "step": 47700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.850144092219021e-05,
      "loss": 2.6004,
      "step": 47800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.849823887287864e-05,
      "loss": 2.6059,
      "step": 47900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8495036823567086e-05,
      "loss": 2.5531,
      "step": 48000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.2510392665863037,
      "eval_runtime": 108.4038,
      "eval_samples_per_second": 92.248,
      "eval_steps_per_second": 5.765,
      "step": 48000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8491834774255526e-05,
      "loss": 2.5861,
      "step": 48100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8488632724943966e-05,
      "loss": 2.5806,
      "step": 48200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.848543067563241e-05,
      "loss": 2.5626,
      "step": 48300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8482228626320845e-05,
      "loss": 2.5832,
      "step": 48400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.847902657700929e-05,
      "loss": 2.5839,
      "step": 48500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8475824527697725e-05,
      "loss": 2.5712,
      "step": 48600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.847262247838617e-05,
      "loss": 2.5801,
      "step": 48700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.846942042907461e-05,
      "loss": 2.5595,
      "step": 48800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.846621837976305e-05,
      "loss": 2.5878,
      "step": 48900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.84630163304515e-05,
      "loss": 2.5661,
      "step": 49000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.2415647506713867,
      "eval_runtime": 99.8563,
      "eval_samples_per_second": 100.144,
      "eval_steps_per_second": 6.259,
      "step": 49000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.845981428113993e-05,
      "loss": 2.6128,
      "step": 49100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8456612231828377e-05,
      "loss": 2.6037,
      "step": 49200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.845341018251681e-05,
      "loss": 2.5862,
      "step": 49300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8450208133205256e-05,
      "loss": 2.5301,
      "step": 49400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.844700608389369e-05,
      "loss": 2.5731,
      "step": 49500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8443804034582136e-05,
      "loss": 2.572,
      "step": 49600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8440601985270575e-05,
      "loss": 2.5932,
      "step": 49700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8437399935959015e-05,
      "loss": 2.5797,
      "step": 49800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.843419788664746e-05,
      "loss": 2.5604,
      "step": 49900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8430995837335894e-05,
      "loss": 2.5578,
      "step": 50000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.2345130443573,
      "eval_runtime": 99.696,
      "eval_samples_per_second": 100.305,
      "eval_steps_per_second": 6.269,
      "step": 50000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.842779378802434e-05,
      "loss": 2.5569,
      "step": 50100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8424591738712774e-05,
      "loss": 2.5782,
      "step": 50200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.842138968940122e-05,
      "loss": 2.5975,
      "step": 50300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.841818764008966e-05,
      "loss": 2.5869,
      "step": 50400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.84149855907781e-05,
      "loss": 2.5909,
      "step": 50500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8411783541466546e-05,
      "loss": 2.5726,
      "step": 50600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.840858149215498e-05,
      "loss": 2.596,
      "step": 50700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8405379442843426e-05,
      "loss": 2.5433,
      "step": 50800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.840217739353186e-05,
      "loss": 2.5532,
      "step": 50900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8398975344220305e-05,
      "loss": 2.5403,
      "step": 51000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.2430243492126465,
      "eval_runtime": 99.9173,
      "eval_samples_per_second": 100.083,
      "eval_steps_per_second": 6.255,
      "step": 51000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.839577329490874e-05,
      "loss": 2.556,
      "step": 51100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8392571245597185e-05,
      "loss": 2.5752,
      "step": 51200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8389369196285625e-05,
      "loss": 2.5574,
      "step": 51300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8386167146974064e-05,
      "loss": 2.5438,
      "step": 51400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.838296509766251e-05,
      "loss": 2.5701,
      "step": 51500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8379763048350944e-05,
      "loss": 2.5697,
      "step": 51600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.837656099903939e-05,
      "loss": 2.556,
      "step": 51700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.837335894972782e-05,
      "loss": 2.5982,
      "step": 51800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.837015690041627e-05,
      "loss": 2.5426,
      "step": 51900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.836695485110471e-05,
      "loss": 2.5753,
      "step": 52000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.2330825328826904,
      "eval_runtime": 99.9827,
      "eval_samples_per_second": 100.017,
      "eval_steps_per_second": 6.251,
      "step": 52000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.836375280179315e-05,
      "loss": 2.5639,
      "step": 52100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8360550752481596e-05,
      "loss": 2.5962,
      "step": 52200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.835734870317003e-05,
      "loss": 2.5666,
      "step": 52300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8354146653858475e-05,
      "loss": 2.5735,
      "step": 52400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.835094460454691e-05,
      "loss": 2.5555,
      "step": 52500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8347742555235355e-05,
      "loss": 2.5715,
      "step": 52600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.834454050592379e-05,
      "loss": 2.5556,
      "step": 52700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8341338456612234e-05,
      "loss": 2.5523,
      "step": 52800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8338136407300674e-05,
      "loss": 2.5676,
      "step": 52900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8334934357989114e-05,
      "loss": 2.5782,
      "step": 53000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.231302261352539,
      "eval_runtime": 100.1345,
      "eval_samples_per_second": 99.866,
      "eval_steps_per_second": 6.242,
      "step": 53000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.833173230867756e-05,
      "loss": 2.5697,
      "step": 53100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.832853025936599e-05,
      "loss": 2.5524,
      "step": 53200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.832532821005444e-05,
      "loss": 2.5321,
      "step": 53300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.832212616074287e-05,
      "loss": 2.5545,
      "step": 53400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.831892411143132e-05,
      "loss": 2.5562,
      "step": 53500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.831572206211976e-05,
      "loss": 2.5711,
      "step": 53600
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.83125200128082e-05,
      "loss": 2.5506,
      "step": 53700
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8309317963496645e-05,
      "loss": 2.5684,
      "step": 53800
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.830611591418508e-05,
      "loss": 2.5454,
      "step": 53900
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8302913864873525e-05,
      "loss": 2.5496,
      "step": 54000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.235858678817749,
      "eval_runtime": 101.6684,
      "eval_samples_per_second": 98.359,
      "eval_steps_per_second": 6.147,
      "step": 54000
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.829971181556196e-05,
      "loss": 2.573,
      "step": 54100
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8296509766250404e-05,
      "loss": 2.5335,
      "step": 54200
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8293307716938844e-05,
      "loss": 2.5388,
      "step": 54300
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.8290105667627284e-05,
      "loss": 2.5673,
      "step": 54400
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.828690361831572e-05,
      "loss": 2.5559,
      "step": 54500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.828370156900416e-05,
      "loss": 2.5428,
      "step": 54600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.828049951969261e-05,
      "loss": 2.5525,
      "step": 54700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.827729747038104e-05,
      "loss": 2.5432,
      "step": 54800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.827409542106949e-05,
      "loss": 2.5363,
      "step": 54900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.827089337175792e-05,
      "loss": 2.5394,
      "step": 55000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.226895809173584,
      "eval_runtime": 105.1151,
      "eval_samples_per_second": 95.134,
      "eval_steps_per_second": 5.946,
      "step": 55000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.826769132244637e-05,
      "loss": 2.5402,
      "step": 55100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.826448927313481e-05,
      "loss": 2.5435,
      "step": 55200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.826128722382325e-05,
      "loss": 2.5579,
      "step": 55300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8258085174511695e-05,
      "loss": 2.5799,
      "step": 55400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.825488312520013e-05,
      "loss": 2.5258,
      "step": 55500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8251681075888574e-05,
      "loss": 2.559,
      "step": 55600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.824847902657701e-05,
      "loss": 2.55,
      "step": 55700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8245276977265454e-05,
      "loss": 2.5462,
      "step": 55800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.824207492795389e-05,
      "loss": 2.5537,
      "step": 55900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.823887287864233e-05,
      "loss": 2.5544,
      "step": 56000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.2175378799438477,
      "eval_runtime": 109.339,
      "eval_samples_per_second": 91.459,
      "eval_steps_per_second": 5.716,
      "step": 56000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.823567082933077e-05,
      "loss": 2.5428,
      "step": 56100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.823246878001921e-05,
      "loss": 2.5405,
      "step": 56200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.822926673070766e-05,
      "loss": 2.5645,
      "step": 56300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.822606468139609e-05,
      "loss": 2.5416,
      "step": 56400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.822286263208454e-05,
      "loss": 2.5481,
      "step": 56500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.821966058277298e-05,
      "loss": 2.5211,
      "step": 56600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.821645853346142e-05,
      "loss": 2.5486,
      "step": 56700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.821325648414986e-05,
      "loss": 2.5516,
      "step": 56800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.82100544348383e-05,
      "loss": 2.5435,
      "step": 56900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8206852385526744e-05,
      "loss": 2.5419,
      "step": 57000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.2275261878967285,
      "eval_runtime": 101.9665,
      "eval_samples_per_second": 98.071,
      "eval_steps_per_second": 6.129,
      "step": 57000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.820365033621518e-05,
      "loss": 2.5412,
      "step": 57100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8200448286903623e-05,
      "loss": 2.54,
      "step": 57200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8197246237592056e-05,
      "loss": 2.541,
      "step": 57300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.81940441882805e-05,
      "loss": 2.5365,
      "step": 57400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.819084213896894e-05,
      "loss": 2.5302,
      "step": 57500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.818764008965738e-05,
      "loss": 2.5488,
      "step": 57600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.818443804034582e-05,
      "loss": 2.5431,
      "step": 57700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.818123599103426e-05,
      "loss": 2.5541,
      "step": 57800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.817803394172271e-05,
      "loss": 2.5585,
      "step": 57900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.817483189241114e-05,
      "loss": 2.5351,
      "step": 58000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.225930690765381,
      "eval_runtime": 105.2977,
      "eval_samples_per_second": 94.969,
      "eval_steps_per_second": 5.936,
      "step": 58000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.817162984309959e-05,
      "loss": 2.559,
      "step": 58100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.816842779378803e-05,
      "loss": 2.5488,
      "step": 58200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.816522574447647e-05,
      "loss": 2.5182,
      "step": 58300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.816202369516491e-05,
      "loss": 2.5553,
      "step": 58400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.815882164585335e-05,
      "loss": 2.5496,
      "step": 58500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.815561959654179e-05,
      "loss": 2.5443,
      "step": 58600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8152417547230226e-05,
      "loss": 2.526,
      "step": 58700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.814921549791867e-05,
      "loss": 2.5257,
      "step": 58800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.814601344860711e-05,
      "loss": 2.5185,
      "step": 58900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.814281139929555e-05,
      "loss": 2.5183,
      "step": 59000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.2218210697174072,
      "eval_runtime": 101.7053,
      "eval_samples_per_second": 98.323,
      "eval_steps_per_second": 6.145,
      "step": 59000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.813960934998399e-05,
      "loss": 2.5239,
      "step": 59100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.813640730067243e-05,
      "loss": 2.5336,
      "step": 59200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.813320525136087e-05,
      "loss": 2.5114,
      "step": 59300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.813000320204931e-05,
      "loss": 2.512,
      "step": 59400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.812680115273776e-05,
      "loss": 2.5577,
      "step": 59500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.812359910342619e-05,
      "loss": 2.5212,
      "step": 59600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.812039705411464e-05,
      "loss": 2.5243,
      "step": 59700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.811719500480308e-05,
      "loss": 2.5318,
      "step": 59800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.811399295549152e-05,
      "loss": 2.5286,
      "step": 59900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8110790906179956e-05,
      "loss": 2.5529,
      "step": 60000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.2246625423431396,
      "eval_runtime": 99.7796,
      "eval_samples_per_second": 100.221,
      "eval_steps_per_second": 6.264,
      "step": 60000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8107588856868396e-05,
      "loss": 2.5253,
      "step": 60100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.810438680755684e-05,
      "loss": 2.5373,
      "step": 60200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8101184758245276e-05,
      "loss": 2.5404,
      "step": 60300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.809798270893372e-05,
      "loss": 2.5484,
      "step": 60400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.809478065962216e-05,
      "loss": 2.5149,
      "step": 60500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.80915786103106e-05,
      "loss": 2.5408,
      "step": 60600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.808837656099904e-05,
      "loss": 2.5465,
      "step": 60700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.808517451168748e-05,
      "loss": 2.5202,
      "step": 60800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.808197246237592e-05,
      "loss": 2.5321,
      "step": 60900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.807877041306436e-05,
      "loss": 2.5508,
      "step": 61000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.206472158432007,
      "eval_runtime": 100.1556,
      "eval_samples_per_second": 99.845,
      "eval_steps_per_second": 6.24,
      "step": 61000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.807556836375281e-05,
      "loss": 2.5287,
      "step": 61100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.807236631444125e-05,
      "loss": 2.5415,
      "step": 61200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8069164265129687e-05,
      "loss": 2.5391,
      "step": 61300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8065962215818126e-05,
      "loss": 2.5414,
      "step": 61400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8062760166506566e-05,
      "loss": 2.5596,
      "step": 61500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8059558117195006e-05,
      "loss": 2.5344,
      "step": 61600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8056356067883446e-05,
      "loss": 2.511,
      "step": 61700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.805315401857189e-05,
      "loss": 2.5248,
      "step": 61800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8049951969260325e-05,
      "loss": 2.5093,
      "step": 61900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.804674991994877e-05,
      "loss": 2.5121,
      "step": 62000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.211775302886963,
      "eval_runtime": 102.5277,
      "eval_samples_per_second": 97.535,
      "eval_steps_per_second": 6.096,
      "step": 62000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.804354787063721e-05,
      "loss": 2.5009,
      "step": 62100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.804034582132565e-05,
      "loss": 2.5396,
      "step": 62200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.803714377201409e-05,
      "loss": 2.5213,
      "step": 62300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.803394172270253e-05,
      "loss": 2.5255,
      "step": 62400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.803073967339097e-05,
      "loss": 2.54,
      "step": 62500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.802753762407941e-05,
      "loss": 2.5365,
      "step": 62600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8024335574767856e-05,
      "loss": 2.5407,
      "step": 62700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8021133525456296e-05,
      "loss": 2.5266,
      "step": 62800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8017931476144736e-05,
      "loss": 2.5323,
      "step": 62900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8014729426833176e-05,
      "loss": 2.5074,
      "step": 63000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.2087438106536865,
      "eval_runtime": 102.8525,
      "eval_samples_per_second": 97.227,
      "eval_steps_per_second": 6.077,
      "step": 63000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8011527377521615e-05,
      "loss": 2.5313,
      "step": 63100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8008325328210055e-05,
      "loss": 2.5174,
      "step": 63200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8005123278898495e-05,
      "loss": 2.5401,
      "step": 63300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.8001921229586935e-05,
      "loss": 2.5386,
      "step": 63400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.799871918027538e-05,
      "loss": 2.5157,
      "step": 63500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.799551713096382e-05,
      "loss": 2.5354,
      "step": 63600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.799231508165226e-05,
      "loss": 2.4946,
      "step": 63700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.79891130323407e-05,
      "loss": 2.523,
      "step": 63800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.798591098302914e-05,
      "loss": 2.516,
      "step": 63900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.798270893371758e-05,
      "loss": 2.5042,
      "step": 64000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.205716133117676,
      "eval_runtime": 100.5384,
      "eval_samples_per_second": 99.464,
      "eval_steps_per_second": 6.217,
      "step": 64000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.797950688440602e-05,
      "loss": 2.5249,
      "step": 64100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7976304835094466e-05,
      "loss": 2.5426,
      "step": 64200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7973102785782906e-05,
      "loss": 2.5215,
      "step": 64300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7969900736471346e-05,
      "loss": 2.5292,
      "step": 64400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7966698687159785e-05,
      "loss": 2.5355,
      "step": 64500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7963496637848225e-05,
      "loss": 2.5268,
      "step": 64600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7960294588536665e-05,
      "loss": 2.5346,
      "step": 64700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7957092539225105e-05,
      "loss": 2.5152,
      "step": 64800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7953890489913544e-05,
      "loss": 2.5427,
      "step": 64900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7950688440601984e-05,
      "loss": 2.5133,
      "step": 65000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.2134711742401123,
      "eval_runtime": 105.1052,
      "eval_samples_per_second": 95.143,
      "eval_steps_per_second": 5.946,
      "step": 65000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.794748639129043e-05,
      "loss": 2.5477,
      "step": 65100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.794428434197887e-05,
      "loss": 2.5316,
      "step": 65200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.794108229266731e-05,
      "loss": 2.5262,
      "step": 65300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.793788024335575e-05,
      "loss": 2.5319,
      "step": 65400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.793467819404419e-05,
      "loss": 2.5196,
      "step": 65500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.793147614473263e-05,
      "loss": 2.4944,
      "step": 65600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.792827409542107e-05,
      "loss": 2.5025,
      "step": 65700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7925072046109515e-05,
      "loss": 2.5093,
      "step": 65800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7921869996797955e-05,
      "loss": 2.5139,
      "step": 65900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7918667947486395e-05,
      "loss": 2.4969,
      "step": 66000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.2069196701049805,
      "eval_runtime": 110.545,
      "eval_samples_per_second": 90.461,
      "eval_steps_per_second": 5.654,
      "step": 66000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7915465898174835e-05,
      "loss": 2.5161,
      "step": 66100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7912263848863274e-05,
      "loss": 2.5076,
      "step": 66200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7909061799551714e-05,
      "loss": 2.4991,
      "step": 66300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7905859750240154e-05,
      "loss": 2.5115,
      "step": 66400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.79026577009286e-05,
      "loss": 2.5112,
      "step": 66500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7899455651617033e-05,
      "loss": 2.5405,
      "step": 66600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.789625360230548e-05,
      "loss": 2.5212,
      "step": 66700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.789305155299392e-05,
      "loss": 2.4881,
      "step": 66800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.788984950368236e-05,
      "loss": 2.5258,
      "step": 66900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.78866474543708e-05,
      "loss": 2.5189,
      "step": 67000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.20047926902771,
      "eval_runtime": 104.6681,
      "eval_samples_per_second": 95.54,
      "eval_steps_per_second": 5.971,
      "step": 67000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.788344540505924e-05,
      "loss": 2.5234,
      "step": 67100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.788024335574768e-05,
      "loss": 2.5081,
      "step": 67200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.787704130643612e-05,
      "loss": 2.5113,
      "step": 67300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7873839257124565e-05,
      "loss": 2.5422,
      "step": 67400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7870637207813005e-05,
      "loss": 2.5063,
      "step": 67500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7867435158501444e-05,
      "loss": 2.5291,
      "step": 67600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7864233109189884e-05,
      "loss": 2.5285,
      "step": 67700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7861031059878324e-05,
      "loss": 2.5063,
      "step": 67800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7857829010566764e-05,
      "loss": 2.5073,
      "step": 67900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.78546269612552e-05,
      "loss": 2.5049,
      "step": 68000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.2014424800872803,
      "eval_runtime": 101.4705,
      "eval_samples_per_second": 98.551,
      "eval_steps_per_second": 6.159,
      "step": 68000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.785142491194365e-05,
      "loss": 2.4909,
      "step": 68100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.784822286263208e-05,
      "loss": 2.5023,
      "step": 68200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.784502081332053e-05,
      "loss": 2.4905,
      "step": 68300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.784181876400897e-05,
      "loss": 2.495,
      "step": 68400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.783861671469741e-05,
      "loss": 2.5154,
      "step": 68500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.783541466538585e-05,
      "loss": 2.4986,
      "step": 68600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.783221261607429e-05,
      "loss": 2.4894,
      "step": 68700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7829010566762735e-05,
      "loss": 2.5144,
      "step": 68800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.782580851745117e-05,
      "loss": 2.4897,
      "step": 68900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7822606468139614e-05,
      "loss": 2.5217,
      "step": 69000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.20336651802063,
      "eval_runtime": 100.5338,
      "eval_samples_per_second": 99.469,
      "eval_steps_per_second": 6.217,
      "step": 69000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7819404418828054e-05,
      "loss": 2.4996,
      "step": 69100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7816202369516494e-05,
      "loss": 2.4813,
      "step": 69200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.7813000320204933e-05,
      "loss": 2.5349,
      "step": 69300
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.780979827089337e-05,
      "loss": 2.512,
      "step": 69400
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.780659622158181e-05,
      "loss": 2.5063,
      "step": 69500
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.780339417227025e-05,
      "loss": 2.5006,
      "step": 69600
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.78001921229587e-05,
      "loss": 2.4929,
      "step": 69700
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.779699007364713e-05,
      "loss": 2.4859,
      "step": 69800
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.779378802433558e-05,
      "loss": 2.4879,
      "step": 69900
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.779058597502402e-05,
      "loss": 2.536,
      "step": 70000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.192627429962158,
      "eval_runtime": 99.9898,
      "eval_samples_per_second": 100.01,
      "eval_steps_per_second": 6.251,
      "step": 70000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.778738392571246e-05,
      "loss": 2.4934,
      "step": 70100
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.77841818764009e-05,
      "loss": 2.5027,
      "step": 70200
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.778097982708934e-05,
      "loss": 2.4707,
      "step": 70300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7777777777777784e-05,
      "loss": 2.5022,
      "step": 70400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.777457572846622e-05,
      "loss": 2.511,
      "step": 70500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7771373679154664e-05,
      "loss": 2.5134,
      "step": 70600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.77681716298431e-05,
      "loss": 2.4889,
      "step": 70700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.776496958053154e-05,
      "loss": 2.5169,
      "step": 70800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.776176753121998e-05,
      "loss": 2.5051,
      "step": 70900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.775856548190842e-05,
      "loss": 2.4867,
      "step": 71000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.1948301792144775,
      "eval_runtime": 103.0805,
      "eval_samples_per_second": 97.012,
      "eval_steps_per_second": 6.063,
      "step": 71000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.775536343259687e-05,
      "loss": 2.5025,
      "step": 71100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.77521613832853e-05,
      "loss": 2.5148,
      "step": 71200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.774895933397375e-05,
      "loss": 2.5059,
      "step": 71300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.774575728466218e-05,
      "loss": 2.525,
      "step": 71400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.774255523535063e-05,
      "loss": 2.4841,
      "step": 71500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.773935318603907e-05,
      "loss": 2.5119,
      "step": 71600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.773615113672751e-05,
      "loss": 2.5243,
      "step": 71700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.773294908741595e-05,
      "loss": 2.5062,
      "step": 71800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.772974703810439e-05,
      "loss": 2.5021,
      "step": 71900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7726544988792834e-05,
      "loss": 2.4605,
      "step": 72000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.199766159057617,
      "eval_runtime": 102.8169,
      "eval_samples_per_second": 97.26,
      "eval_steps_per_second": 6.079,
      "step": 72000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7723342939481266e-05,
      "loss": 2.5261,
      "step": 72100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.772014089016971e-05,
      "loss": 2.4968,
      "step": 72200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.771693884085815e-05,
      "loss": 2.489,
      "step": 72300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.771373679154659e-05,
      "loss": 2.5054,
      "step": 72400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.771053474223503e-05,
      "loss": 2.4902,
      "step": 72500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.770733269292347e-05,
      "loss": 2.483,
      "step": 72600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.770413064361192e-05,
      "loss": 2.5002,
      "step": 72700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.770092859430035e-05,
      "loss": 2.4998,
      "step": 72800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.76977265449888e-05,
      "loss": 2.492,
      "step": 72900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.769452449567723e-05,
      "loss": 2.4876,
      "step": 73000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.1980011463165283,
      "eval_runtime": 106.4202,
      "eval_samples_per_second": 93.967,
      "eval_steps_per_second": 5.873,
      "step": 73000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.769132244636568e-05,
      "loss": 2.4937,
      "step": 73100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.768812039705412e-05,
      "loss": 2.4863,
      "step": 73200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.768491834774256e-05,
      "loss": 2.5062,
      "step": 73300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7681716298431003e-05,
      "loss": 2.4918,
      "step": 73400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7678514249119436e-05,
      "loss": 2.5029,
      "step": 73500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.767531219980788e-05,
      "loss": 2.4843,
      "step": 73600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7672110150496316e-05,
      "loss": 2.4892,
      "step": 73700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.766890810118476e-05,
      "loss": 2.4951,
      "step": 73800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.76657060518732e-05,
      "loss": 2.4948,
      "step": 73900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.766250400256164e-05,
      "loss": 2.4749,
      "step": 74000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.190110206604004,
      "eval_runtime": 104.5442,
      "eval_samples_per_second": 95.653,
      "eval_steps_per_second": 5.978,
      "step": 74000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.765930195325009e-05,
      "loss": 2.4604,
      "step": 74100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.765609990393852e-05,
      "loss": 2.4805,
      "step": 74200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.765289785462697e-05,
      "loss": 2.4576,
      "step": 74300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.76496958053154e-05,
      "loss": 2.4864,
      "step": 74400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.764649375600385e-05,
      "loss": 2.4658,
      "step": 74500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.764329170669228e-05,
      "loss": 2.4753,
      "step": 74600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.764008965738073e-05,
      "loss": 2.4773,
      "step": 74700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7636887608069167e-05,
      "loss": 2.4741,
      "step": 74800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7633685558757606e-05,
      "loss": 2.49,
      "step": 74900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.763048350944605e-05,
      "loss": 2.4673,
      "step": 75000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.1910815238952637,
      "eval_runtime": 106.112,
      "eval_samples_per_second": 94.24,
      "eval_steps_per_second": 5.89,
      "step": 75000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7627281460134486e-05,
      "loss": 2.4881,
      "step": 75100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.762407941082293e-05,
      "loss": 2.4786,
      "step": 75200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7620877361511365e-05,
      "loss": 2.4648,
      "step": 75300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.761767531219981e-05,
      "loss": 2.4905,
      "step": 75400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.761447326288825e-05,
      "loss": 2.4859,
      "step": 75500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.761127121357669e-05,
      "loss": 2.4872,
      "step": 75600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.760806916426514e-05,
      "loss": 2.4509,
      "step": 75700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.760486711495357e-05,
      "loss": 2.4584,
      "step": 75800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.760166506564202e-05,
      "loss": 2.479,
      "step": 75900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.759846301633045e-05,
      "loss": 2.4813,
      "step": 76000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.193758964538574,
      "eval_runtime": 100.0474,
      "eval_samples_per_second": 99.953,
      "eval_steps_per_second": 6.247,
      "step": 76000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.75952609670189e-05,
      "loss": 2.4858,
      "step": 76100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.759205891770733e-05,
      "loss": 2.4857,
      "step": 76200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7588856868395776e-05,
      "loss": 2.4919,
      "step": 76300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7585654819084216e-05,
      "loss": 2.4767,
      "step": 76400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7582452769772656e-05,
      "loss": 2.4866,
      "step": 76500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.75792507204611e-05,
      "loss": 2.4414,
      "step": 76600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7576048671149535e-05,
      "loss": 2.4878,
      "step": 76700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.757284662183798e-05,
      "loss": 2.4943,
      "step": 76800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7569644572526415e-05,
      "loss": 2.4742,
      "step": 76900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.756644252321486e-05,
      "loss": 2.4536,
      "step": 77000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.189181327819824,
      "eval_runtime": 101.3315,
      "eval_samples_per_second": 98.686,
      "eval_steps_per_second": 6.168,
      "step": 77000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.75632404739033e-05,
      "loss": 2.4769,
      "step": 77100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.756003842459174e-05,
      "loss": 2.476,
      "step": 77200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.755683637528019e-05,
      "loss": 2.4655,
      "step": 77300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.755363432596862e-05,
      "loss": 2.48,
      "step": 77400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7550432276657067e-05,
      "loss": 2.5002,
      "step": 77500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.75472302273455e-05,
      "loss": 2.4679,
      "step": 77600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7544028178033946e-05,
      "loss": 2.498,
      "step": 77700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.754082612872238e-05,
      "loss": 2.4981,
      "step": 77800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7537624079410826e-05,
      "loss": 2.4837,
      "step": 77900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7534422030099265e-05,
      "loss": 2.4708,
      "step": 78000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.1883318424224854,
      "eval_runtime": 101.0681,
      "eval_samples_per_second": 98.943,
      "eval_steps_per_second": 6.184,
      "step": 78000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7531219980787705e-05,
      "loss": 2.4658,
      "step": 78100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.752801793147615e-05,
      "loss": 2.4607,
      "step": 78200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7524815882164584e-05,
      "loss": 2.4879,
      "step": 78300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.752161383285303e-05,
      "loss": 2.4962,
      "step": 78400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7518411783541464e-05,
      "loss": 2.4747,
      "step": 78500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.751520973422991e-05,
      "loss": 2.4823,
      "step": 78600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.751200768491835e-05,
      "loss": 2.4624,
      "step": 78700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.750880563560679e-05,
      "loss": 2.4438,
      "step": 78800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7505603586295236e-05,
      "loss": 2.458,
      "step": 78900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.750240153698367e-05,
      "loss": 2.4745,
      "step": 79000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.1821813583374023,
      "eval_runtime": 100.9351,
      "eval_samples_per_second": 99.074,
      "eval_steps_per_second": 6.192,
      "step": 79000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7499199487672116e-05,
      "loss": 2.4753,
      "step": 79100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.749599743836055e-05,
      "loss": 2.4487,
      "step": 79200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7492795389048995e-05,
      "loss": 2.4705,
      "step": 79300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.748959333973743e-05,
      "loss": 2.4837,
      "step": 79400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7486391290425875e-05,
      "loss": 2.4667,
      "step": 79500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7483189241114315e-05,
      "loss": 2.4685,
      "step": 79600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7479987191802754e-05,
      "loss": 2.4624,
      "step": 79700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.74767851424912e-05,
      "loss": 2.4497,
      "step": 79800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7473583093179634e-05,
      "loss": 2.4707,
      "step": 79900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.747038104386808e-05,
      "loss": 2.4618,
      "step": 80000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.183683395385742,
      "eval_runtime": 102.8573,
      "eval_samples_per_second": 97.222,
      "eval_steps_per_second": 6.076,
      "step": 80000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.746717899455651e-05,
      "loss": 2.4841,
      "step": 80100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.746397694524496e-05,
      "loss": 2.48,
      "step": 80200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.74607748959334e-05,
      "loss": 2.4859,
      "step": 80300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.745757284662184e-05,
      "loss": 2.468,
      "step": 80400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7454370797310286e-05,
      "loss": 2.4677,
      "step": 80500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.745116874799872e-05,
      "loss": 2.4925,
      "step": 80600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7447966698687165e-05,
      "loss": 2.4451,
      "step": 80700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.74447646493756e-05,
      "loss": 2.4636,
      "step": 80800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7441562600064045e-05,
      "loss": 2.4691,
      "step": 80900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7438360550752485e-05,
      "loss": 2.4719,
      "step": 81000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.177049160003662,
      "eval_runtime": 105.2623,
      "eval_samples_per_second": 95.001,
      "eval_steps_per_second": 5.938,
      "step": 81000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7435158501440924e-05,
      "loss": 2.4671,
      "step": 81100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7431956452129364e-05,
      "loss": 2.4763,
      "step": 81200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7428754402817804e-05,
      "loss": 2.4875,
      "step": 81300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.742555235350625e-05,
      "loss": 2.4669,
      "step": 81400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.742235030419468e-05,
      "loss": 2.4672,
      "step": 81500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.741914825488313e-05,
      "loss": 2.4788,
      "step": 81600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.741594620557156e-05,
      "loss": 2.4588,
      "step": 81700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.741274415626001e-05,
      "loss": 2.4839,
      "step": 81800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.740954210694845e-05,
      "loss": 2.4628,
      "step": 81900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.740634005763689e-05,
      "loss": 2.464,
      "step": 82000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.1802260875701904,
      "eval_runtime": 103.8161,
      "eval_samples_per_second": 96.324,
      "eval_steps_per_second": 6.02,
      "step": 82000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.740313800832533e-05,
      "loss": 2.4645,
      "step": 82100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.739993595901377e-05,
      "loss": 2.4497,
      "step": 82200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7396733909702215e-05,
      "loss": 2.4757,
      "step": 82300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.739353186039065e-05,
      "loss": 2.4759,
      "step": 82400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7390329811079094e-05,
      "loss": 2.4894,
      "step": 82500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7387127761767534e-05,
      "loss": 2.4522,
      "step": 82600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7383925712455974e-05,
      "loss": 2.445,
      "step": 82700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.738072366314441e-05,
      "loss": 2.4968,
      "step": 82800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.737752161383285e-05,
      "loss": 2.4728,
      "step": 82900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.73743195645213e-05,
      "loss": 2.4509,
      "step": 83000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.182131052017212,
      "eval_runtime": 100.8589,
      "eval_samples_per_second": 99.148,
      "eval_steps_per_second": 6.197,
      "step": 83000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.737111751520973e-05,
      "loss": 2.4737,
      "step": 83100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.736791546589818e-05,
      "loss": 2.4642,
      "step": 83200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.736471341658662e-05,
      "loss": 2.4429,
      "step": 83300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.736151136727506e-05,
      "loss": 2.4605,
      "step": 83400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.73583093179635e-05,
      "loss": 2.4813,
      "step": 83500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.735510726865194e-05,
      "loss": 2.4828,
      "step": 83600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.735190521934038e-05,
      "loss": 2.4844,
      "step": 83700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.734870317002882e-05,
      "loss": 2.4879,
      "step": 83800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7345501120717264e-05,
      "loss": 2.4763,
      "step": 83900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7342299071405704e-05,
      "loss": 2.4464,
      "step": 84000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.181997537612915,
      "eval_runtime": 101.7998,
      "eval_samples_per_second": 98.232,
      "eval_steps_per_second": 6.14,
      "step": 84000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7339097022094144e-05,
      "loss": 2.4493,
      "step": 84100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.733589497278258e-05,
      "loss": 2.458,
      "step": 84200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.733269292347102e-05,
      "loss": 2.4567,
      "step": 84300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.732949087415946e-05,
      "loss": 2.4732,
      "step": 84400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.73262888248479e-05,
      "loss": 2.4748,
      "step": 84500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.732308677553635e-05,
      "loss": 2.4796,
      "step": 84600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.731988472622478e-05,
      "loss": 2.4575,
      "step": 84700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.731668267691323e-05,
      "loss": 2.4645,
      "step": 84800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.731348062760167e-05,
      "loss": 2.4485,
      "step": 84900
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.731027857829011e-05,
      "loss": 2.4698,
      "step": 85000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.1782026290893555,
      "eval_runtime": 102.3743,
      "eval_samples_per_second": 97.681,
      "eval_steps_per_second": 6.105,
      "step": 85000
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.730707652897855e-05,
      "loss": 2.4563,
      "step": 85100
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.730387447966699e-05,
      "loss": 2.4654,
      "step": 85200
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.730067243035543e-05,
      "loss": 2.4423,
      "step": 85300
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.729747038104387e-05,
      "loss": 2.4708,
      "step": 85400
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.7294268331732313e-05,
      "loss": 2.4536,
      "step": 85500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.729106628242075e-05,
      "loss": 2.4376,
      "step": 85600
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.728786423310919e-05,
      "loss": 2.4608,
      "step": 85700
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.728466218379763e-05,
      "loss": 2.4515,
      "step": 85800
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.728146013448607e-05,
      "loss": 2.4642,
      "step": 85900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.727825808517451e-05,
      "loss": 2.4622,
      "step": 86000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.177145481109619,
      "eval_runtime": 100.5436,
      "eval_samples_per_second": 99.459,
      "eval_steps_per_second": 6.216,
      "step": 86000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.727505603586295e-05,
      "loss": 2.4454,
      "step": 86100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.72718539865514e-05,
      "loss": 2.4483,
      "step": 86200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.726865193723984e-05,
      "loss": 2.4553,
      "step": 86300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.726544988792828e-05,
      "loss": 2.4446,
      "step": 86400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.726224783861672e-05,
      "loss": 2.4618,
      "step": 86500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.725904578930516e-05,
      "loss": 2.4589,
      "step": 86600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.72558437399936e-05,
      "loss": 2.4449,
      "step": 86700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.725264169068204e-05,
      "loss": 2.5113,
      "step": 86800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7249439641370477e-05,
      "loss": 2.4712,
      "step": 86900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7246237592058916e-05,
      "loss": 2.4377,
      "step": 87000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.177532911300659,
      "eval_runtime": 102.0923,
      "eval_samples_per_second": 97.951,
      "eval_steps_per_second": 6.122,
      "step": 87000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.724303554274736e-05,
      "loss": 2.4704,
      "step": 87100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.72398334934358e-05,
      "loss": 2.4478,
      "step": 87200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.723663144412424e-05,
      "loss": 2.4549,
      "step": 87300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.723342939481268e-05,
      "loss": 2.4599,
      "step": 87400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.723022734550112e-05,
      "loss": 2.4631,
      "step": 87500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.722702529618956e-05,
      "loss": 2.4745,
      "step": 87600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7223823246878e-05,
      "loss": 2.4566,
      "step": 87700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.722062119756645e-05,
      "loss": 2.4258,
      "step": 87800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.721741914825489e-05,
      "loss": 2.44,
      "step": 87900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.721421709894333e-05,
      "loss": 2.47,
      "step": 88000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.1685194969177246,
      "eval_runtime": 98.0913,
      "eval_samples_per_second": 101.946,
      "eval_steps_per_second": 6.372,
      "step": 88000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.721101504963177e-05,
      "loss": 2.4799,
      "step": 88100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.720781300032021e-05,
      "loss": 2.4627,
      "step": 88200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7204610951008646e-05,
      "loss": 2.4488,
      "step": 88300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7201408901697086e-05,
      "loss": 2.464,
      "step": 88400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7198206852385526e-05,
      "loss": 2.4557,
      "step": 88500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.719500480307397e-05,
      "loss": 2.4347,
      "step": 88600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.719180275376241e-05,
      "loss": 2.4707,
      "step": 88700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.718860070445085e-05,
      "loss": 2.4475,
      "step": 88800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.718539865513929e-05,
      "loss": 2.4435,
      "step": 88900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.718219660582773e-05,
      "loss": 2.4335,
      "step": 89000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.16536545753479,
      "eval_runtime": 101.6988,
      "eval_samples_per_second": 98.33,
      "eval_steps_per_second": 6.146,
      "step": 89000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.717899455651617e-05,
      "loss": 2.4495,
      "step": 89100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.717579250720461e-05,
      "loss": 2.4523,
      "step": 89200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.717259045789305e-05,
      "loss": 2.467,
      "step": 89300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.71693884085815e-05,
      "loss": 2.4236,
      "step": 89400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.716618635926994e-05,
      "loss": 2.452,
      "step": 89500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7162984309958377e-05,
      "loss": 2.4459,
      "step": 89600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7159782260646816e-05,
      "loss": 2.4547,
      "step": 89700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7156580211335256e-05,
      "loss": 2.4343,
      "step": 89800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7153378162023696e-05,
      "loss": 2.4657,
      "step": 89900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7150176112712136e-05,
      "loss": 2.4325,
      "step": 90000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.167423725128174,
      "eval_runtime": 102.9509,
      "eval_samples_per_second": 97.134,
      "eval_steps_per_second": 6.071,
      "step": 90000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7146974063400575e-05,
      "loss": 2.4559,
      "step": 90100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.714377201408902e-05,
      "loss": 2.433,
      "step": 90200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.714056996477746e-05,
      "loss": 2.4281,
      "step": 90300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.71373679154659e-05,
      "loss": 2.45,
      "step": 90400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.713416586615434e-05,
      "loss": 2.4388,
      "step": 90500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.713096381684278e-05,
      "loss": 2.4471,
      "step": 90600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.712776176753122e-05,
      "loss": 2.4506,
      "step": 90700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.712455971821966e-05,
      "loss": 2.4394,
      "step": 90800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.712135766890811e-05,
      "loss": 2.4497,
      "step": 90900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7118155619596546e-05,
      "loss": 2.4529,
      "step": 91000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.1713709831237793,
      "eval_runtime": 106.3325,
      "eval_samples_per_second": 94.045,
      "eval_steps_per_second": 5.878,
      "step": 91000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7114953570284986e-05,
      "loss": 2.4732,
      "step": 91100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7111751520973426e-05,
      "loss": 2.4569,
      "step": 91200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7108549471661866e-05,
      "loss": 2.4428,
      "step": 91300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7105347422350305e-05,
      "loss": 2.4494,
      "step": 91400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7102145373038745e-05,
      "loss": 2.4375,
      "step": 91500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.709894332372719e-05,
      "loss": 2.4372,
      "step": 91600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7095741274415625e-05,
      "loss": 2.4495,
      "step": 91700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.709253922510407e-05,
      "loss": 2.4606,
      "step": 91800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.708933717579251e-05,
      "loss": 2.4364,
      "step": 91900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.708613512648095e-05,
      "loss": 2.4531,
      "step": 92000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.1677136421203613,
      "eval_runtime": 108.6737,
      "eval_samples_per_second": 92.019,
      "eval_steps_per_second": 5.751,
      "step": 92000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.708293307716939e-05,
      "loss": 2.4343,
      "step": 92100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.707973102785783e-05,
      "loss": 2.4491,
      "step": 92200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.707652897854627e-05,
      "loss": 2.4363,
      "step": 92300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.707332692923471e-05,
      "loss": 2.446,
      "step": 92400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7070124879923156e-05,
      "loss": 2.4298,
      "step": 92500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7066922830611596e-05,
      "loss": 2.4494,
      "step": 92600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7063720781300036e-05,
      "loss": 2.4698,
      "step": 92700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7060518731988475e-05,
      "loss": 2.4474,
      "step": 92800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7057316682676915e-05,
      "loss": 2.4628,
      "step": 92900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7054114633365355e-05,
      "loss": 2.4555,
      "step": 93000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.1718738079071045,
      "eval_runtime": 104.7375,
      "eval_samples_per_second": 95.477,
      "eval_steps_per_second": 5.967,
      "step": 93000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7050912584053795e-05,
      "loss": 2.4464,
      "step": 93100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.704771053474224e-05,
      "loss": 2.444,
      "step": 93200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7044508485430674e-05,
      "loss": 2.4285,
      "step": 93300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.704130643611912e-05,
      "loss": 2.436,
      "step": 93400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.703810438680756e-05,
      "loss": 2.4629,
      "step": 93500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7034902337496e-05,
      "loss": 2.4405,
      "step": 93600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.703170028818444e-05,
      "loss": 2.4297,
      "step": 93700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.702849823887288e-05,
      "loss": 2.4067,
      "step": 93800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7025296189561326e-05,
      "loss": 2.4221,
      "step": 93900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.702209414024976e-05,
      "loss": 2.4384,
      "step": 94000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.1684508323669434,
      "eval_runtime": 103.3501,
      "eval_samples_per_second": 96.758,
      "eval_steps_per_second": 6.047,
      "step": 94000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7018892090938205e-05,
      "loss": 2.4496,
      "step": 94100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7015690041626645e-05,
      "loss": 2.4385,
      "step": 94200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7012487992315085e-05,
      "loss": 2.4791,
      "step": 94300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7009285943003525e-05,
      "loss": 2.4243,
      "step": 94400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7006083893691964e-05,
      "loss": 2.4479,
      "step": 94500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.7002881844380404e-05,
      "loss": 2.4412,
      "step": 94600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6999679795068844e-05,
      "loss": 2.4409,
      "step": 94700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.699647774575729e-05,
      "loss": 2.4535,
      "step": 94800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6993275696445723e-05,
      "loss": 2.4195,
      "step": 94900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.699007364713417e-05,
      "loss": 2.4236,
      "step": 95000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.171712875366211,
      "eval_runtime": 100.0467,
      "eval_samples_per_second": 99.953,
      "eval_steps_per_second": 6.247,
      "step": 95000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.698687159782261e-05,
      "loss": 2.4064,
      "step": 95100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.698366954851105e-05,
      "loss": 2.4086,
      "step": 95200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.698046749919949e-05,
      "loss": 2.4205,
      "step": 95300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.697726544988793e-05,
      "loss": 2.4193,
      "step": 95400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6974063400576375e-05,
      "loss": 2.4379,
      "step": 95500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.697086135126481e-05,
      "loss": 2.4301,
      "step": 95600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6967659301953255e-05,
      "loss": 2.4458,
      "step": 95700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6964457252641695e-05,
      "loss": 2.4393,
      "step": 95800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6961255203330134e-05,
      "loss": 2.443,
      "step": 95900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6958053154018574e-05,
      "loss": 2.4489,
      "step": 96000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.162780284881592,
      "eval_runtime": 97.4855,
      "eval_samples_per_second": 102.579,
      "eval_steps_per_second": 6.411,
      "step": 96000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6954851104707014e-05,
      "loss": 2.4242,
      "step": 96100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.695164905539546e-05,
      "loss": 2.4281,
      "step": 96200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.694844700608389e-05,
      "loss": 2.4192,
      "step": 96300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.694524495677234e-05,
      "loss": 2.4377,
      "step": 96400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.694204290746077e-05,
      "loss": 2.4695,
      "step": 96500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.693884085814922e-05,
      "loss": 2.4558,
      "step": 96600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.693563880883766e-05,
      "loss": 2.4416,
      "step": 96700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.69324367595261e-05,
      "loss": 2.442,
      "step": 96800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.692923471021454e-05,
      "loss": 2.4523,
      "step": 96900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.692603266090298e-05,
      "loss": 2.4478,
      "step": 97000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.1624202728271484,
      "eval_runtime": 102.3662,
      "eval_samples_per_second": 97.688,
      "eval_steps_per_second": 6.106,
      "step": 97000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6922830611591425e-05,
      "loss": 2.4291,
      "step": 97100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.691962856227986e-05,
      "loss": 2.4422,
      "step": 97200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6916426512968304e-05,
      "loss": 2.4184,
      "step": 97300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6913224463656744e-05,
      "loss": 2.4154,
      "step": 97400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6910022414345184e-05,
      "loss": 2.4404,
      "step": 97500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6906820365033623e-05,
      "loss": 2.4398,
      "step": 97600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.690361831572206e-05,
      "loss": 2.4332,
      "step": 97700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.690041626641051e-05,
      "loss": 2.4292,
      "step": 97800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.689721421709894e-05,
      "loss": 2.4378,
      "step": 97900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.689401216778739e-05,
      "loss": 2.4338,
      "step": 98000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.161749839782715,
      "eval_runtime": 101.2765,
      "eval_samples_per_second": 98.74,
      "eval_steps_per_second": 6.171,
      "step": 98000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.689081011847582e-05,
      "loss": 2.4433,
      "step": 98100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.688760806916427e-05,
      "loss": 2.4405,
      "step": 98200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.688440601985271e-05,
      "loss": 2.4277,
      "step": 98300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.688120397054115e-05,
      "loss": 2.4152,
      "step": 98400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6878001921229595e-05,
      "loss": 2.4211,
      "step": 98500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.687479987191803e-05,
      "loss": 2.4504,
      "step": 98600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6871597822606474e-05,
      "loss": 2.413,
      "step": 98700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.686839577329491e-05,
      "loss": 2.4418,
      "step": 98800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6865193723983354e-05,
      "loss": 2.4343,
      "step": 98900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.686199167467179e-05,
      "loss": 2.4119,
      "step": 99000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.160079002380371,
      "eval_runtime": 105.2006,
      "eval_samples_per_second": 95.056,
      "eval_steps_per_second": 5.941,
      "step": 99000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.685878962536023e-05,
      "loss": 2.4517,
      "step": 99100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.685558757604867e-05,
      "loss": 2.4144,
      "step": 99200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.685238552673711e-05,
      "loss": 2.4319,
      "step": 99300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.684918347742556e-05,
      "loss": 2.428,
      "step": 99400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.684598142811399e-05,
      "loss": 2.426,
      "step": 99500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.684277937880244e-05,
      "loss": 2.4253,
      "step": 99600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.683957732949087e-05,
      "loss": 2.4262,
      "step": 99700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.683637528017932e-05,
      "loss": 2.4514,
      "step": 99800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.683317323086776e-05,
      "loss": 2.4169,
      "step": 99900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.68299711815562e-05,
      "loss": 2.4528,
      "step": 100000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.1599230766296387,
      "eval_runtime": 103.4422,
      "eval_samples_per_second": 96.672,
      "eval_steps_per_second": 6.042,
      "step": 100000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6826769132244644e-05,
      "loss": 2.4342,
      "step": 100100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.682356708293308e-05,
      "loss": 2.4172,
      "step": 100200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6820365033621523e-05,
      "loss": 2.439,
      "step": 100300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.6817162984309956e-05,
      "loss": 2.426,
      "step": 100400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.68139609349984e-05,
      "loss": 2.4107,
      "step": 100500
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.681075888568684e-05,
      "loss": 2.4223,
      "step": 100600
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.680755683637528e-05,
      "loss": 2.42,
      "step": 100700
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.680435478706372e-05,
      "loss": 2.4588,
      "step": 100800
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.680115273775216e-05,
      "loss": 2.4165,
      "step": 100900
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.679795068844061e-05,
      "loss": 2.4338,
      "step": 101000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.1592180728912354,
      "eval_runtime": 104.6672,
      "eval_samples_per_second": 95.541,
      "eval_steps_per_second": 5.971,
      "step": 101000
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.679474863912904e-05,
      "loss": 2.4291,
      "step": 101100
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.679154658981749e-05,
      "loss": 2.4344,
      "step": 101200
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.678834454050592e-05,
      "loss": 2.4223,
      "step": 101300
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.678514249119437e-05,
      "loss": 2.44,
      "step": 101400
    },
    {
      "epoch": 0.06,
      "learning_rate": 4.678194044188281e-05,
      "loss": 2.4082,
      "step": 101500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.677873839257125e-05,
      "loss": 2.4156,
      "step": 101600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6775536343259693e-05,
      "loss": 2.4174,
      "step": 101700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6772334293948126e-05,
      "loss": 2.4412,
      "step": 101800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.676913224463657e-05,
      "loss": 2.4241,
      "step": 101900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6765930195325006e-05,
      "loss": 2.4444,
      "step": 102000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.1527817249298096,
      "eval_runtime": 107.6345,
      "eval_samples_per_second": 92.907,
      "eval_steps_per_second": 5.807,
      "step": 102000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.676272814601345e-05,
      "loss": 2.4232,
      "step": 102100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.675952609670189e-05,
      "loss": 2.426,
      "step": 102200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.675632404739033e-05,
      "loss": 2.3957,
      "step": 102300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.675312199807877e-05,
      "loss": 2.4388,
      "step": 102400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.674991994876721e-05,
      "loss": 2.4298,
      "step": 102500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.674671789945566e-05,
      "loss": 2.4214,
      "step": 102600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.674351585014409e-05,
      "loss": 2.4053,
      "step": 102700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.674031380083254e-05,
      "loss": 2.4192,
      "step": 102800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.673711175152097e-05,
      "loss": 2.4252,
      "step": 102900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.673390970220942e-05,
      "loss": 2.4413,
      "step": 103000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.153827428817749,
      "eval_runtime": 108.4532,
      "eval_samples_per_second": 92.206,
      "eval_steps_per_second": 5.763,
      "step": 103000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6730707652897857e-05,
      "loss": 2.4339,
      "step": 103100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6727505603586296e-05,
      "loss": 2.4388,
      "step": 103200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.672430355427474e-05,
      "loss": 2.4095,
      "step": 103300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6721101504963176e-05,
      "loss": 2.433,
      "step": 103400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.671789945565162e-05,
      "loss": 2.4184,
      "step": 103500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6714697406340055e-05,
      "loss": 2.4168,
      "step": 103600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.67114953570285e-05,
      "loss": 2.4303,
      "step": 103700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.670829330771694e-05,
      "loss": 2.418,
      "step": 103800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.670509125840538e-05,
      "loss": 2.4353,
      "step": 103900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.670188920909382e-05,
      "loss": 2.4173,
      "step": 104000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.1529698371887207,
      "eval_runtime": 102.1658,
      "eval_samples_per_second": 97.88,
      "eval_steps_per_second": 6.118,
      "step": 104000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.669868715978226e-05,
      "loss": 2.4137,
      "step": 104100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.669548511047071e-05,
      "loss": 2.4178,
      "step": 104200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.669228306115914e-05,
      "loss": 2.4235,
      "step": 104300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.668908101184759e-05,
      "loss": 2.4387,
      "step": 104400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.668587896253602e-05,
      "loss": 2.4014,
      "step": 104500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6682676913224466e-05,
      "loss": 2.4109,
      "step": 104600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6679474863912906e-05,
      "loss": 2.4273,
      "step": 104700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6676272814601346e-05,
      "loss": 2.4083,
      "step": 104800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.667307076528979e-05,
      "loss": 2.425,
      "step": 104900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6669868715978225e-05,
      "loss": 2.4151,
      "step": 105000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.1549391746520996,
      "eval_runtime": 99.7616,
      "eval_samples_per_second": 100.239,
      "eval_steps_per_second": 6.265,
      "step": 105000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.666666666666667e-05,
      "loss": 2.4311,
      "step": 105100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6663464617355105e-05,
      "loss": 2.4022,
      "step": 105200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.666026256804355e-05,
      "loss": 2.4047,
      "step": 105300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.665706051873199e-05,
      "loss": 2.4327,
      "step": 105400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.665385846942043e-05,
      "loss": 2.4201,
      "step": 105500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.665065642010887e-05,
      "loss": 2.4389,
      "step": 105600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.664745437079731e-05,
      "loss": 2.4005,
      "step": 105700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6644252321485757e-05,
      "loss": 2.4329,
      "step": 105800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.664105027217419e-05,
      "loss": 2.4349,
      "step": 105900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6637848222862636e-05,
      "loss": 2.4211,
      "step": 106000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.1550185680389404,
      "eval_runtime": 103.4,
      "eval_samples_per_second": 96.712,
      "eval_steps_per_second": 6.044,
      "step": 106000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6634646173551076e-05,
      "loss": 2.3928,
      "step": 106100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6631444124239516e-05,
      "loss": 2.4115,
      "step": 106200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6628242074927955e-05,
      "loss": 2.4027,
      "step": 106300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6625040025616395e-05,
      "loss": 2.4039,
      "step": 106400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.662183797630484e-05,
      "loss": 2.3954,
      "step": 106500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6618635926993274e-05,
      "loss": 2.4438,
      "step": 106600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.661543387768172e-05,
      "loss": 2.4031,
      "step": 106700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6612231828370154e-05,
      "loss": 2.4096,
      "step": 106800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.66090297790586e-05,
      "loss": 2.3948,
      "step": 106900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.660582772974704e-05,
      "loss": 2.3986,
      "step": 107000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.159122943878174,
      "eval_runtime": 103.5297,
      "eval_samples_per_second": 96.591,
      "eval_steps_per_second": 6.037,
      "step": 107000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.660262568043548e-05,
      "loss": 2.4062,
      "step": 107100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.659942363112392e-05,
      "loss": 2.4105,
      "step": 107200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.659622158181236e-05,
      "loss": 2.3831,
      "step": 107300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6593019532500806e-05,
      "loss": 2.4283,
      "step": 107400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.658981748318924e-05,
      "loss": 2.415,
      "step": 107500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6586615433877685e-05,
      "loss": 2.4039,
      "step": 107600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6583413384566125e-05,
      "loss": 2.3952,
      "step": 107700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6580211335254565e-05,
      "loss": 2.4157,
      "step": 107800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6577009285943005e-05,
      "loss": 2.4278,
      "step": 107900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6573807236631444e-05,
      "loss": 2.4187,
      "step": 108000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.153784990310669,
      "eval_runtime": 105.4489,
      "eval_samples_per_second": 94.833,
      "eval_steps_per_second": 5.927,
      "step": 108000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.657060518731989e-05,
      "loss": 2.4105,
      "step": 108100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6567403138008324e-05,
      "loss": 2.3813,
      "step": 108200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.656420108869677e-05,
      "loss": 2.4092,
      "step": 108300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.656099903938521e-05,
      "loss": 2.4339,
      "step": 108400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.655779699007365e-05,
      "loss": 2.4246,
      "step": 108500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.655459494076209e-05,
      "loss": 2.4026,
      "step": 108600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.655139289145053e-05,
      "loss": 2.3896,
      "step": 108700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.654819084213897e-05,
      "loss": 2.3963,
      "step": 108800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.654498879282741e-05,
      "loss": 2.397,
      "step": 108900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6541786743515855e-05,
      "loss": 2.3996,
      "step": 109000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.1486117839813232,
      "eval_runtime": 106.1581,
      "eval_samples_per_second": 94.199,
      "eval_steps_per_second": 5.887,
      "step": 109000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.653858469420429e-05,
      "loss": 2.4187,
      "step": 109100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6535382644892735e-05,
      "loss": 2.3755,
      "step": 109200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6532180595581175e-05,
      "loss": 2.4266,
      "step": 109300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6528978546269614e-05,
      "loss": 2.403,
      "step": 109400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6525776496958054e-05,
      "loss": 2.437,
      "step": 109500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6522574447646494e-05,
      "loss": 2.4145,
      "step": 109600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.651937239833494e-05,
      "loss": 2.409,
      "step": 109700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.651617034902337e-05,
      "loss": 2.4048,
      "step": 109800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.651296829971182e-05,
      "loss": 2.4031,
      "step": 109900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.650976625040026e-05,
      "loss": 2.4159,
      "step": 110000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.1473968029022217,
      "eval_runtime": 107.8665,
      "eval_samples_per_second": 92.707,
      "eval_steps_per_second": 5.794,
      "step": 110000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.65065642010887e-05,
      "loss": 2.4201,
      "step": 110100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.650336215177714e-05,
      "loss": 2.4089,
      "step": 110200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.650016010246558e-05,
      "loss": 2.3861,
      "step": 110300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.649695805315402e-05,
      "loss": 2.4039,
      "step": 110400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.649375600384246e-05,
      "loss": 2.3915,
      "step": 110500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6490553954530905e-05,
      "loss": 2.4035,
      "step": 110600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6487351905219344e-05,
      "loss": 2.3834,
      "step": 110700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6484149855907784e-05,
      "loss": 2.4117,
      "step": 110800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6480947806596224e-05,
      "loss": 2.4156,
      "step": 110900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6477745757284664e-05,
      "loss": 2.4049,
      "step": 111000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.1440532207489014,
      "eval_runtime": 106.993,
      "eval_samples_per_second": 93.464,
      "eval_steps_per_second": 5.842,
      "step": 111000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.64745437079731e-05,
      "loss": 2.4285,
      "step": 111100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.647134165866154e-05,
      "loss": 2.4065,
      "step": 111200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.646813960934999e-05,
      "loss": 2.4189,
      "step": 111300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.646493756003843e-05,
      "loss": 2.4053,
      "step": 111400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.646173551072687e-05,
      "loss": 2.4249,
      "step": 111500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.645853346141531e-05,
      "loss": 2.4259,
      "step": 111600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.645533141210375e-05,
      "loss": 2.4104,
      "step": 111700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.645212936279219e-05,
      "loss": 2.4219,
      "step": 111800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.644892731348063e-05,
      "loss": 2.4113,
      "step": 111900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.644572526416907e-05,
      "loss": 2.4008,
      "step": 112000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.147432327270508,
      "eval_runtime": 110.3838,
      "eval_samples_per_second": 90.593,
      "eval_steps_per_second": 5.662,
      "step": 112000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.644252321485751e-05,
      "loss": 2.3953,
      "step": 112100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6439321165545954e-05,
      "loss": 2.4278,
      "step": 112200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6436119116234394e-05,
      "loss": 2.4111,
      "step": 112300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6432917066922834e-05,
      "loss": 2.3858,
      "step": 112400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.642971501761127e-05,
      "loss": 2.4174,
      "step": 112500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.642651296829971e-05,
      "loss": 2.4171,
      "step": 112600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.642331091898815e-05,
      "loss": 2.3958,
      "step": 112700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.642010886967659e-05,
      "loss": 2.3987,
      "step": 112800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.641690682036504e-05,
      "loss": 2.3894,
      "step": 112900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.641370477105348e-05,
      "loss": 2.3944,
      "step": 113000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.1469640731811523,
      "eval_runtime": 109.4184,
      "eval_samples_per_second": 91.392,
      "eval_steps_per_second": 5.712,
      "step": 113000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.641050272174192e-05,
      "loss": 2.3878,
      "step": 113100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.640730067243036e-05,
      "loss": 2.4077,
      "step": 113200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.64040986231188e-05,
      "loss": 2.3734,
      "step": 113300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.640089657380724e-05,
      "loss": 2.4038,
      "step": 113400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.639769452449568e-05,
      "loss": 2.4143,
      "step": 113500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.639449247518412e-05,
      "loss": 2.4085,
      "step": 113600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6391290425872564e-05,
      "loss": 2.3874,
      "step": 113700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6388088376561003e-05,
      "loss": 2.3961,
      "step": 113800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.638488632724944e-05,
      "loss": 2.3805,
      "step": 113900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.638168427793788e-05,
      "loss": 2.383,
      "step": 114000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.1447110176086426,
      "eval_runtime": 102.9826,
      "eval_samples_per_second": 97.104,
      "eval_steps_per_second": 6.069,
      "step": 114000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.637848222862632e-05,
      "loss": 2.4187,
      "step": 114100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.637528017931476e-05,
      "loss": 2.403,
      "step": 114200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.63720781300032e-05,
      "loss": 2.4291,
      "step": 114300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.636887608069164e-05,
      "loss": 2.3922,
      "step": 114400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.636567403138009e-05,
      "loss": 2.4095,
      "step": 114500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.636247198206853e-05,
      "loss": 2.401,
      "step": 114600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.635926993275697e-05,
      "loss": 2.4187,
      "step": 114700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.635606788344541e-05,
      "loss": 2.3938,
      "step": 114800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.635286583413385e-05,
      "loss": 2.4102,
      "step": 114900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.634966378482229e-05,
      "loss": 2.3972,
      "step": 115000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.146885633468628,
      "eval_runtime": 103.7896,
      "eval_samples_per_second": 96.349,
      "eval_steps_per_second": 6.022,
      "step": 115000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.634646173551073e-05,
      "loss": 2.3992,
      "step": 115100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6343259686199167e-05,
      "loss": 2.4118,
      "step": 115200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.634005763688761e-05,
      "loss": 2.4037,
      "step": 115300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.633685558757605e-05,
      "loss": 2.4118,
      "step": 115400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.633365353826449e-05,
      "loss": 2.4251,
      "step": 115500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.633045148895293e-05,
      "loss": 2.4202,
      "step": 115600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.632724943964137e-05,
      "loss": 2.3926,
      "step": 115700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.632404739032981e-05,
      "loss": 2.3864,
      "step": 115800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.632084534101825e-05,
      "loss": 2.4049,
      "step": 115900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.63176432917067e-05,
      "loss": 2.4245,
      "step": 116000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.136610746383667,
      "eval_runtime": 101.8536,
      "eval_samples_per_second": 98.18,
      "eval_steps_per_second": 6.136,
      "step": 116000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.631444124239514e-05,
      "loss": 2.4021,
      "step": 116100
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.631123919308358e-05,
      "loss": 2.4075,
      "step": 116200
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.630803714377202e-05,
      "loss": 2.4089,
      "step": 116300
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.630483509446046e-05,
      "loss": 2.4204,
      "step": 116400
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.63016330451489e-05,
      "loss": 2.4279,
      "step": 116500
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6298430995837336e-05,
      "loss": 2.3994,
      "step": 116600
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6295228946525776e-05,
      "loss": 2.4108,
      "step": 116700
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.6292026897214216e-05,
      "loss": 2.4072,
      "step": 116800
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.628882484790266e-05,
      "loss": 2.4121,
      "step": 116900
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.62856227985911e-05,
      "loss": 2.3997,
      "step": 117000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.1416850090026855,
      "eval_runtime": 103.6374,
      "eval_samples_per_second": 96.49,
      "eval_steps_per_second": 6.031,
      "step": 117000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.628242074927954e-05,
      "loss": 2.3952,
      "step": 117100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.627921869996798e-05,
      "loss": 2.3786,
      "step": 117200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.627601665065642e-05,
      "loss": 2.4147,
      "step": 117300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.627281460134486e-05,
      "loss": 2.3893,
      "step": 117400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.62696125520333e-05,
      "loss": 2.4065,
      "step": 117500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.626641050272175e-05,
      "loss": 2.4019,
      "step": 117600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.626320845341019e-05,
      "loss": 2.3602,
      "step": 117700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.626000640409863e-05,
      "loss": 2.3775,
      "step": 117800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6256804354787067e-05,
      "loss": 2.3917,
      "step": 117900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6253602305475506e-05,
      "loss": 2.3967,
      "step": 118000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.1413958072662354,
      "eval_runtime": 103.443,
      "eval_samples_per_second": 96.672,
      "eval_steps_per_second": 6.042,
      "step": 118000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6250400256163946e-05,
      "loss": 2.4096,
      "step": 118100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6247198206852386e-05,
      "loss": 2.4019,
      "step": 118200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.624399615754083e-05,
      "loss": 2.4123,
      "step": 118300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6240794108229265e-05,
      "loss": 2.4044,
      "step": 118400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.623759205891771e-05,
      "loss": 2.4186,
      "step": 118500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.623439000960615e-05,
      "loss": 2.3874,
      "step": 118600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.623118796029459e-05,
      "loss": 2.4208,
      "step": 118700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.622798591098303e-05,
      "loss": 2.4111,
      "step": 118800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.622478386167147e-05,
      "loss": 2.3976,
      "step": 118900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.622158181235991e-05,
      "loss": 2.3781,
      "step": 119000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.1387979984283447,
      "eval_runtime": 104.3822,
      "eval_samples_per_second": 95.802,
      "eval_steps_per_second": 5.988,
      "step": 119000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.621837976304835e-05,
      "loss": 2.3857,
      "step": 119100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.62151777137368e-05,
      "loss": 2.3968,
      "step": 119200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6211975664425236e-05,
      "loss": 2.3963,
      "step": 119300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6208773615113676e-05,
      "loss": 2.4035,
      "step": 119400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6205571565802116e-05,
      "loss": 2.3946,
      "step": 119500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6202369516490556e-05,
      "loss": 2.3992,
      "step": 119600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6199167467178995e-05,
      "loss": 2.4047,
      "step": 119700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6195965417867435e-05,
      "loss": 2.3961,
      "step": 119800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.619276336855588e-05,
      "loss": 2.3944,
      "step": 119900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6189561319244315e-05,
      "loss": 2.4122,
      "step": 120000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.134321689605713,
      "eval_runtime": 101.3628,
      "eval_samples_per_second": 98.655,
      "eval_steps_per_second": 6.166,
      "step": 120000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.618635926993276e-05,
      "loss": 2.4042,
      "step": 120100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.61831572206212e-05,
      "loss": 2.4033,
      "step": 120200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.617995517130964e-05,
      "loss": 2.3904,
      "step": 120300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.617675312199808e-05,
      "loss": 2.3931,
      "step": 120400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.617355107268652e-05,
      "loss": 2.4016,
      "step": 120500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.617034902337497e-05,
      "loss": 2.3741,
      "step": 120600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.61671469740634e-05,
      "loss": 2.3889,
      "step": 120700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6163944924751846e-05,
      "loss": 2.3854,
      "step": 120800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6160742875440286e-05,
      "loss": 2.4001,
      "step": 120900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6157540826128726e-05,
      "loss": 2.3971,
      "step": 121000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.1379926204681396,
      "eval_runtime": 98.8073,
      "eval_samples_per_second": 101.207,
      "eval_steps_per_second": 6.325,
      "step": 121000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6154338776817165e-05,
      "loss": 2.3908,
      "step": 121100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6151136727505605e-05,
      "loss": 2.4053,
      "step": 121200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.614793467819405e-05,
      "loss": 2.3783,
      "step": 121300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6144732628882485e-05,
      "loss": 2.4127,
      "step": 121400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.614153057957093e-05,
      "loss": 2.3818,
      "step": 121500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6138328530259364e-05,
      "loss": 2.4018,
      "step": 121600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.613512648094781e-05,
      "loss": 2.3894,
      "step": 121700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.613192443163625e-05,
      "loss": 2.3646,
      "step": 121800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.612872238232469e-05,
      "loss": 2.3808,
      "step": 121900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.612552033301313e-05,
      "loss": 2.3905,
      "step": 122000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.1415226459503174,
      "eval_runtime": 103.2187,
      "eval_samples_per_second": 96.882,
      "eval_steps_per_second": 6.055,
      "step": 122000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.612231828370157e-05,
      "loss": 2.3989,
      "step": 122100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6119116234390016e-05,
      "loss": 2.4155,
      "step": 122200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.611591418507845e-05,
      "loss": 2.3865,
      "step": 122300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6112712135766895e-05,
      "loss": 2.3989,
      "step": 122400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6109510086455335e-05,
      "loss": 2.3924,
      "step": 122500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6106308037143775e-05,
      "loss": 2.3892,
      "step": 122600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6103105987832215e-05,
      "loss": 2.4098,
      "step": 122700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6099903938520654e-05,
      "loss": 2.3941,
      "step": 122800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.60967018892091e-05,
      "loss": 2.409,
      "step": 122900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6093499839897534e-05,
      "loss": 2.4004,
      "step": 123000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.135789155960083,
      "eval_runtime": 103.6841,
      "eval_samples_per_second": 96.447,
      "eval_steps_per_second": 6.028,
      "step": 123000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.609029779058598e-05,
      "loss": 2.3683,
      "step": 123100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6087095741274413e-05,
      "loss": 2.3973,
      "step": 123200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.608389369196286e-05,
      "loss": 2.3945,
      "step": 123300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.60806916426513e-05,
      "loss": 2.3533,
      "step": 123400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.607748959333974e-05,
      "loss": 2.4394,
      "step": 123500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6074287544028186e-05,
      "loss": 2.4171,
      "step": 123600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.607108549471662e-05,
      "loss": 2.3943,
      "step": 123700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6067883445405065e-05,
      "loss": 2.3635,
      "step": 123800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.60646813960935e-05,
      "loss": 2.3845,
      "step": 123900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6061479346781945e-05,
      "loss": 2.3856,
      "step": 124000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.135934829711914,
      "eval_runtime": 105.4536,
      "eval_samples_per_second": 94.828,
      "eval_steps_per_second": 5.927,
      "step": 124000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6058277297470385e-05,
      "loss": 2.3619,
      "step": 124100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6055075248158824e-05,
      "loss": 2.373,
      "step": 124200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6051873198847264e-05,
      "loss": 2.3929,
      "step": 124300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6048671149535704e-05,
      "loss": 2.3859,
      "step": 124400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.604546910022415e-05,
      "loss": 2.3806,
      "step": 124500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.604226705091258e-05,
      "loss": 2.3987,
      "step": 124600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.603906500160103e-05,
      "loss": 2.3963,
      "step": 124700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.603586295228946e-05,
      "loss": 2.3865,
      "step": 124800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.603266090297791e-05,
      "loss": 2.3755,
      "step": 124900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.602945885366635e-05,
      "loss": 2.3629,
      "step": 125000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.1390628814697266,
      "eval_runtime": 105.2972,
      "eval_samples_per_second": 94.969,
      "eval_steps_per_second": 5.936,
      "step": 125000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.602625680435479e-05,
      "loss": 2.3877,
      "step": 125100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6023054755043235e-05,
      "loss": 2.3825,
      "step": 125200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.601985270573167e-05,
      "loss": 2.3786,
      "step": 125300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6016650656420115e-05,
      "loss": 2.3702,
      "step": 125400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.601344860710855e-05,
      "loss": 2.3702,
      "step": 125500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6010246557796994e-05,
      "loss": 2.3814,
      "step": 125600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6007044508485434e-05,
      "loss": 2.3616,
      "step": 125700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6003842459173874e-05,
      "loss": 2.373,
      "step": 125800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.6000640409862313e-05,
      "loss": 2.3914,
      "step": 125900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.599743836055075e-05,
      "loss": 2.3808,
      "step": 126000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.1329691410064697,
      "eval_runtime": 105.0128,
      "eval_samples_per_second": 95.226,
      "eval_steps_per_second": 5.952,
      "step": 126000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.59942363112392e-05,
      "loss": 2.3767,
      "step": 126100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.599103426192763e-05,
      "loss": 2.393,
      "step": 126200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.598783221261608e-05,
      "loss": 2.3663,
      "step": 126300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.598463016330451e-05,
      "loss": 2.3905,
      "step": 126400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.598142811399296e-05,
      "loss": 2.408,
      "step": 126500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.59782260646814e-05,
      "loss": 2.3731,
      "step": 126600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.597502401536984e-05,
      "loss": 2.3603,
      "step": 126700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.5971821966058285e-05,
      "loss": 2.394,
      "step": 126800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.596861991674672e-05,
      "loss": 2.3874,
      "step": 126900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.5965417867435164e-05,
      "loss": 2.3919,
      "step": 127000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.1370251178741455,
      "eval_runtime": 100.4097,
      "eval_samples_per_second": 99.592,
      "eval_steps_per_second": 6.224,
      "step": 127000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.59622158181236e-05,
      "loss": 2.3829,
      "step": 127100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.5959013768812044e-05,
      "loss": 2.3952,
      "step": 127200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.595581171950048e-05,
      "loss": 2.3849,
      "step": 127300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.595260967018892e-05,
      "loss": 2.371,
      "step": 127400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.594940762087736e-05,
      "loss": 2.3767,
      "step": 127500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.59462055715658e-05,
      "loss": 2.3743,
      "step": 127600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.594300352225425e-05,
      "loss": 2.3889,
      "step": 127700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.593980147294268e-05,
      "loss": 2.3958,
      "step": 127800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.593659942363113e-05,
      "loss": 2.3621,
      "step": 127900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.593339737431956e-05,
      "loss": 2.3976,
      "step": 128000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.132335662841797,
      "eval_runtime": 100.987,
      "eval_samples_per_second": 99.023,
      "eval_steps_per_second": 6.189,
      "step": 128000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.593019532500801e-05,
      "loss": 2.3813,
      "step": 128100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.592699327569645e-05,
      "loss": 2.3712,
      "step": 128200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.592379122638489e-05,
      "loss": 2.3894,
      "step": 128300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.5920589177073334e-05,
      "loss": 2.3958,
      "step": 128400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.591738712776177e-05,
      "loss": 2.3807,
      "step": 128500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.5914185078450213e-05,
      "loss": 2.3821,
      "step": 128600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.5910983029138646e-05,
      "loss": 2.3666,
      "step": 128700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.590778097982709e-05,
      "loss": 2.3974,
      "step": 128800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.590457893051553e-05,
      "loss": 2.3747,
      "step": 128900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.590137688120397e-05,
      "loss": 2.3898,
      "step": 129000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.1264708042144775,
      "eval_runtime": 97.2897,
      "eval_samples_per_second": 102.786,
      "eval_steps_per_second": 6.424,
      "step": 129000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.589817483189241e-05,
      "loss": 2.3763,
      "step": 129100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.589497278258085e-05,
      "loss": 2.3777,
      "step": 129200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.58917707332693e-05,
      "loss": 2.3849,
      "step": 129300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.588856868395773e-05,
      "loss": 2.3827,
      "step": 129400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.588536663464618e-05,
      "loss": 2.3821,
      "step": 129500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.588216458533461e-05,
      "loss": 2.3875,
      "step": 129600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.587896253602306e-05,
      "loss": 2.3657,
      "step": 129700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.58757604867115e-05,
      "loss": 2.3878,
      "step": 129800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.587255843739994e-05,
      "loss": 2.3906,
      "step": 129900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.586935638808838e-05,
      "loss": 2.3591,
      "step": 130000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.1346051692962646,
      "eval_runtime": 101.7747,
      "eval_samples_per_second": 98.256,
      "eval_steps_per_second": 6.141,
      "step": 130000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.5866154338776816e-05,
      "loss": 2.3766,
      "step": 130100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.586295228946526e-05,
      "loss": 2.3895,
      "step": 130200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.5859750240153696e-05,
      "loss": 2.3696,
      "step": 130300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.585654819084214e-05,
      "loss": 2.3627,
      "step": 130400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.585334614153058e-05,
      "loss": 2.3811,
      "step": 130500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.585014409221902e-05,
      "loss": 2.3734,
      "step": 130600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.584694204290746e-05,
      "loss": 2.3631,
      "step": 130700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.58437399935959e-05,
      "loss": 2.393,
      "step": 130800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.584053794428435e-05,
      "loss": 2.3836,
      "step": 130900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.583733589497278e-05,
      "loss": 2.3715,
      "step": 131000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.1330149173736572,
      "eval_runtime": 101.0087,
      "eval_samples_per_second": 99.001,
      "eval_steps_per_second": 6.188,
      "step": 131000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.583413384566123e-05,
      "loss": 2.3827,
      "step": 131100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.583093179634967e-05,
      "loss": 2.3906,
      "step": 131200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.582772974703811e-05,
      "loss": 2.3858,
      "step": 131300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.5824527697726547e-05,
      "loss": 2.3833,
      "step": 131400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.5821325648414986e-05,
      "loss": 2.3659,
      "step": 131500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.581812359910343e-05,
      "loss": 2.3885,
      "step": 131600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.5814921549791866e-05,
      "loss": 2.373,
      "step": 131700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.581171950048031e-05,
      "loss": 2.365,
      "step": 131800
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.5808517451168745e-05,
      "loss": 2.3767,
      "step": 131900
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.580531540185719e-05,
      "loss": 2.3653,
      "step": 132000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.128119945526123,
      "eval_runtime": 106.3579,
      "eval_samples_per_second": 94.022,
      "eval_steps_per_second": 5.876,
      "step": 132000
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.580211335254563e-05,
      "loss": 2.37,
      "step": 132100
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.579891130323407e-05,
      "loss": 2.4058,
      "step": 132200
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.579570925392251e-05,
      "loss": 2.3874,
      "step": 132300
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.579250720461095e-05,
      "loss": 2.396,
      "step": 132400
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.57893051552994e-05,
      "loss": 2.3812,
      "step": 132500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.578610310598783e-05,
      "loss": 2.3772,
      "step": 132600
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.578290105667628e-05,
      "loss": 2.3843,
      "step": 132700
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.5779699007364716e-05,
      "loss": 2.3819,
      "step": 132800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5776496958053156e-05,
      "loss": 2.3674,
      "step": 132900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5773294908741596e-05,
      "loss": 2.3644,
      "step": 133000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1281938552856445,
      "eval_runtime": 105.7517,
      "eval_samples_per_second": 94.561,
      "eval_steps_per_second": 5.91,
      "step": 133000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5770092859430036e-05,
      "loss": 2.3765,
      "step": 133100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.576689081011848e-05,
      "loss": 2.3831,
      "step": 133200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5763688760806915e-05,
      "loss": 2.38,
      "step": 133300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.576048671149536e-05,
      "loss": 2.3824,
      "step": 133400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.57572846621838e-05,
      "loss": 2.3803,
      "step": 133500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.575408261287224e-05,
      "loss": 2.3724,
      "step": 133600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.575088056356068e-05,
      "loss": 2.3927,
      "step": 133700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.574767851424912e-05,
      "loss": 2.3412,
      "step": 133800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.574447646493756e-05,
      "loss": 2.3635,
      "step": 133900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5741274415626e-05,
      "loss": 2.361,
      "step": 134000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1331546306610107,
      "eval_runtime": 106.3998,
      "eval_samples_per_second": 93.985,
      "eval_steps_per_second": 5.874,
      "step": 134000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5738072366314447e-05,
      "loss": 2.3758,
      "step": 134100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.573487031700288e-05,
      "loss": 2.3609,
      "step": 134200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5731668267691326e-05,
      "loss": 2.3478,
      "step": 134300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5728466218379766e-05,
      "loss": 2.3516,
      "step": 134400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5725264169068206e-05,
      "loss": 2.3692,
      "step": 134500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5722062119756645e-05,
      "loss": 2.3796,
      "step": 134600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5718860070445085e-05,
      "loss": 2.3795,
      "step": 134700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.571565802113353e-05,
      "loss": 2.3521,
      "step": 134800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5712455971821964e-05,
      "loss": 2.3697,
      "step": 134900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.570925392251041e-05,
      "loss": 2.3592,
      "step": 135000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1322221755981445,
      "eval_runtime": 105.9065,
      "eval_samples_per_second": 94.423,
      "eval_steps_per_second": 5.901,
      "step": 135000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.570605187319885e-05,
      "loss": 2.3883,
      "step": 135100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.570284982388729e-05,
      "loss": 2.3781,
      "step": 135200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.569964777457573e-05,
      "loss": 2.383,
      "step": 135300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.569644572526417e-05,
      "loss": 2.3606,
      "step": 135400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.569324367595261e-05,
      "loss": 2.3899,
      "step": 135500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.569004162664105e-05,
      "loss": 2.3672,
      "step": 135600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5686839577329496e-05,
      "loss": 2.359,
      "step": 135700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5683637528017936e-05,
      "loss": 2.3517,
      "step": 135800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5680435478706375e-05,
      "loss": 2.3629,
      "step": 135900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5677233429394815e-05,
      "loss": 2.3681,
      "step": 136000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.122685194015503,
      "eval_runtime": 105.1901,
      "eval_samples_per_second": 95.066,
      "eval_steps_per_second": 5.942,
      "step": 136000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5674031380083255e-05,
      "loss": 2.3502,
      "step": 136100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5670829330771695e-05,
      "loss": 2.3986,
      "step": 136200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5667627281460134e-05,
      "loss": 2.3567,
      "step": 136300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.566442523214858e-05,
      "loss": 2.3584,
      "step": 136400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5661223182837014e-05,
      "loss": 2.3593,
      "step": 136500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.565802113352546e-05,
      "loss": 2.3409,
      "step": 136600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.56548190842139e-05,
      "loss": 2.3731,
      "step": 136700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.565161703490234e-05,
      "loss": 2.3815,
      "step": 136800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.564841498559078e-05,
      "loss": 2.351,
      "step": 136900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.564521293627922e-05,
      "loss": 2.3481,
      "step": 137000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1236274242401123,
      "eval_runtime": 102.2729,
      "eval_samples_per_second": 97.778,
      "eval_steps_per_second": 6.111,
      "step": 137000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.564201088696766e-05,
      "loss": 2.3877,
      "step": 137100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.56388088376561e-05,
      "loss": 2.3718,
      "step": 137200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5635606788344545e-05,
      "loss": 2.3697,
      "step": 137300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5632404739032985e-05,
      "loss": 2.3585,
      "step": 137400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5629202689721425e-05,
      "loss": 2.3657,
      "step": 137500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5626000640409865e-05,
      "loss": 2.3848,
      "step": 137600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5622798591098304e-05,
      "loss": 2.3712,
      "step": 137700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5619596541786744e-05,
      "loss": 2.3662,
      "step": 137800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5616394492475184e-05,
      "loss": 2.3587,
      "step": 137900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.561319244316363e-05,
      "loss": 2.3691,
      "step": 138000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1219305992126465,
      "eval_runtime": 98.6536,
      "eval_samples_per_second": 101.365,
      "eval_steps_per_second": 6.335,
      "step": 138000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.560999039385207e-05,
      "loss": 2.3541,
      "step": 138100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.560678834454051e-05,
      "loss": 2.3599,
      "step": 138200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.560358629522895e-05,
      "loss": 2.344,
      "step": 138300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.560038424591739e-05,
      "loss": 2.3734,
      "step": 138400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.559718219660583e-05,
      "loss": 2.3914,
      "step": 138500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.559398014729427e-05,
      "loss": 2.3577,
      "step": 138600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.559077809798271e-05,
      "loss": 2.3865,
      "step": 138700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.558757604867115e-05,
      "loss": 2.3658,
      "step": 138800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5584373999359595e-05,
      "loss": 2.3729,
      "step": 138900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5581171950048034e-05,
      "loss": 2.3363,
      "step": 139000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1245534420013428,
      "eval_runtime": 102.2298,
      "eval_samples_per_second": 97.819,
      "eval_steps_per_second": 6.114,
      "step": 139000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5577969900736474e-05,
      "loss": 2.3542,
      "step": 139100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5574767851424914e-05,
      "loss": 2.3697,
      "step": 139200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5571565802113354e-05,
      "loss": 2.3779,
      "step": 139300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.556836375280179e-05,
      "loss": 2.3775,
      "step": 139400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.556516170349023e-05,
      "loss": 2.3533,
      "step": 139500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.556195965417868e-05,
      "loss": 2.3667,
      "step": 139600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.555875760486712e-05,
      "loss": 2.375,
      "step": 139700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.555555555555556e-05,
      "loss": 2.3589,
      "step": 139800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5552353506244e-05,
      "loss": 2.3482,
      "step": 139900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.554915145693244e-05,
      "loss": 2.3409,
      "step": 140000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1265759468078613,
      "eval_runtime": 102.8068,
      "eval_samples_per_second": 97.27,
      "eval_steps_per_second": 6.079,
      "step": 140000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.554594940762088e-05,
      "loss": 2.3478,
      "step": 140100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.554274735830932e-05,
      "loss": 2.3609,
      "step": 140200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.553954530899776e-05,
      "loss": 2.38,
      "step": 140300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5536343259686204e-05,
      "loss": 2.387,
      "step": 140400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5533141210374644e-05,
      "loss": 2.3696,
      "step": 140500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5529939161063084e-05,
      "loss": 2.3384,
      "step": 140600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5526737111751524e-05,
      "loss": 2.3524,
      "step": 140700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.552353506243996e-05,
      "loss": 2.365,
      "step": 140800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.55203330131284e-05,
      "loss": 2.3751,
      "step": 140900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.551713096381684e-05,
      "loss": 2.3491,
      "step": 141000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1223702430725098,
      "eval_runtime": 109.7559,
      "eval_samples_per_second": 91.111,
      "eval_steps_per_second": 5.694,
      "step": 141000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.551392891450529e-05,
      "loss": 2.3549,
      "step": 141100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.551072686519373e-05,
      "loss": 2.3734,
      "step": 141200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.550752481588217e-05,
      "loss": 2.3599,
      "step": 141300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.550432276657061e-05,
      "loss": 2.3681,
      "step": 141400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.550112071725905e-05,
      "loss": 2.352,
      "step": 141500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.549791866794749e-05,
      "loss": 2.3623,
      "step": 141600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.549471661863593e-05,
      "loss": 2.3459,
      "step": 141700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.549151456932437e-05,
      "loss": 2.3751,
      "step": 141800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.548831252001281e-05,
      "loss": 2.3491,
      "step": 141900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5485110470701254e-05,
      "loss": 2.3601,
      "step": 142000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.122671604156494,
      "eval_runtime": 112.0042,
      "eval_samples_per_second": 89.282,
      "eval_steps_per_second": 5.58,
      "step": 142000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5481908421389693e-05,
      "loss": 2.3529,
      "step": 142100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.547870637207813e-05,
      "loss": 2.3478,
      "step": 142200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.547550432276657e-05,
      "loss": 2.3458,
      "step": 142300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.547230227345501e-05,
      "loss": 2.3618,
      "step": 142400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.546910022414345e-05,
      "loss": 2.3625,
      "step": 142500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.546589817483189e-05,
      "loss": 2.3867,
      "step": 142600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.546269612552034e-05,
      "loss": 2.3554,
      "step": 142700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.545949407620878e-05,
      "loss": 2.3476,
      "step": 142800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.545629202689722e-05,
      "loss": 2.3481,
      "step": 142900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.545308997758566e-05,
      "loss": 2.3749,
      "step": 143000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1175475120544434,
      "eval_runtime": 99.5491,
      "eval_samples_per_second": 100.453,
      "eval_steps_per_second": 6.278,
      "step": 143000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.54498879282741e-05,
      "loss": 2.3403,
      "step": 143100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.544668587896254e-05,
      "loss": 2.3726,
      "step": 143200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.544348382965098e-05,
      "loss": 2.3616,
      "step": 143300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5440281780339424e-05,
      "loss": 2.3593,
      "step": 143400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5437079731027857e-05,
      "loss": 2.35,
      "step": 143500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.54338776817163e-05,
      "loss": 2.353,
      "step": 143600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.543067563240474e-05,
      "loss": 2.3711,
      "step": 143700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.542747358309318e-05,
      "loss": 2.3566,
      "step": 143800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.542427153378162e-05,
      "loss": 2.3673,
      "step": 143900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.542106948447006e-05,
      "loss": 2.3699,
      "step": 144000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1183199882507324,
      "eval_runtime": 105.3373,
      "eval_samples_per_second": 94.933,
      "eval_steps_per_second": 5.933,
      "step": 144000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.54178674351585e-05,
      "loss": 2.3583,
      "step": 144100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.541466538584694e-05,
      "loss": 2.3312,
      "step": 144200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.541146333653539e-05,
      "loss": 2.3507,
      "step": 144300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.540826128722383e-05,
      "loss": 2.3705,
      "step": 144400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.540505923791227e-05,
      "loss": 2.3606,
      "step": 144500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.540185718860071e-05,
      "loss": 2.381,
      "step": 144600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.539865513928915e-05,
      "loss": 2.3567,
      "step": 144700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.539545308997759e-05,
      "loss": 2.3805,
      "step": 144800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5392251040666026e-05,
      "loss": 2.3671,
      "step": 144900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.538904899135447e-05,
      "loss": 2.3736,
      "step": 145000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1200616359710693,
      "eval_runtime": 107.2188,
      "eval_samples_per_second": 93.267,
      "eval_steps_per_second": 5.829,
      "step": 145000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5385846942042906e-05,
      "loss": 2.3664,
      "step": 145100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.538264489273135e-05,
      "loss": 2.3696,
      "step": 145200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.537944284341979e-05,
      "loss": 2.3545,
      "step": 145300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.537624079410823e-05,
      "loss": 2.3924,
      "step": 145400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.537303874479667e-05,
      "loss": 2.3488,
      "step": 145500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.536983669548511e-05,
      "loss": 2.3998,
      "step": 145600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.536663464617356e-05,
      "loss": 2.3575,
      "step": 145700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.536343259686199e-05,
      "loss": 2.334,
      "step": 145800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.536023054755044e-05,
      "loss": 2.329,
      "step": 145900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.535702849823888e-05,
      "loss": 2.3606,
      "step": 146000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1166443824768066,
      "eval_runtime": 100.791,
      "eval_samples_per_second": 99.215,
      "eval_steps_per_second": 6.201,
      "step": 146000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.535382644892732e-05,
      "loss": 2.3315,
      "step": 146100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5350624399615757e-05,
      "loss": 2.3892,
      "step": 146200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5347422350304196e-05,
      "loss": 2.3748,
      "step": 146300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5344220300992636e-05,
      "loss": 2.3607,
      "step": 146400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5341018251681076e-05,
      "loss": 2.3519,
      "step": 146500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.533781620236952e-05,
      "loss": 2.3481,
      "step": 146600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5334614153057955e-05,
      "loss": 2.3536,
      "step": 146700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.53314121037464e-05,
      "loss": 2.3495,
      "step": 146800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.532821005443484e-05,
      "loss": 2.3782,
      "step": 146900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.532500800512328e-05,
      "loss": 2.3495,
      "step": 147000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1191511154174805,
      "eval_runtime": 102.0728,
      "eval_samples_per_second": 97.969,
      "eval_steps_per_second": 6.123,
      "step": 147000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.532180595581172e-05,
      "loss": 2.3756,
      "step": 147100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.531860390650016e-05,
      "loss": 2.3148,
      "step": 147200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.531540185718861e-05,
      "loss": 2.3442,
      "step": 147300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.531219980787704e-05,
      "loss": 2.3617,
      "step": 147400
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.530899775856549e-05,
      "loss": 2.3498,
      "step": 147500
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5305795709253926e-05,
      "loss": 2.3607,
      "step": 147600
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5302593659942366e-05,
      "loss": 2.3457,
      "step": 147700
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5299391610630806e-05,
      "loss": 2.3559,
      "step": 147800
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5296189561319246e-05,
      "loss": 2.365,
      "step": 147900
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.529298751200769e-05,
      "loss": 2.3469,
      "step": 148000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.1216890811920166,
      "eval_runtime": 101.1916,
      "eval_samples_per_second": 98.822,
      "eval_steps_per_second": 6.176,
      "step": 148000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5289785462696125e-05,
      "loss": 2.3492,
      "step": 148100
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.528658341338457e-05,
      "loss": 2.3315,
      "step": 148200
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.5283381364073005e-05,
      "loss": 2.3615,
      "step": 148300
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.528017931476145e-05,
      "loss": 2.3478,
      "step": 148400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.527697726544989e-05,
      "loss": 2.3499,
      "step": 148500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.527377521613833e-05,
      "loss": 2.3672,
      "step": 148600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.527057316682678e-05,
      "loss": 2.3447,
      "step": 148700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.526737111751521e-05,
      "loss": 2.353,
      "step": 148800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.526416906820366e-05,
      "loss": 2.3635,
      "step": 148900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.526096701889209e-05,
      "loss": 2.3629,
      "step": 149000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.117072105407715,
      "eval_runtime": 105.5034,
      "eval_samples_per_second": 94.784,
      "eval_steps_per_second": 5.924,
      "step": 149000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5257764969580536e-05,
      "loss": 2.3567,
      "step": 149100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5254562920268976e-05,
      "loss": 2.3529,
      "step": 149200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5251360870957416e-05,
      "loss": 2.3411,
      "step": 149300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5248158821645855e-05,
      "loss": 2.3618,
      "step": 149400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5244956772334295e-05,
      "loss": 2.3564,
      "step": 149500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.524175472302274e-05,
      "loss": 2.3708,
      "step": 149600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5238552673711175e-05,
      "loss": 2.3499,
      "step": 149700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.523535062439962e-05,
      "loss": 2.3691,
      "step": 149800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5232148575088054e-05,
      "loss": 2.3742,
      "step": 149900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.52289465257765e-05,
      "loss": 2.3475,
      "step": 150000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.118055820465088,
      "eval_runtime": 105.7727,
      "eval_samples_per_second": 94.542,
      "eval_steps_per_second": 5.909,
      "step": 150000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.522574447646494e-05,
      "loss": 2.369,
      "step": 150100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.522254242715338e-05,
      "loss": 2.345,
      "step": 150200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5219340377841827e-05,
      "loss": 2.3694,
      "step": 150300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.521613832853026e-05,
      "loss": 2.3475,
      "step": 150400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5212936279218706e-05,
      "loss": 2.3501,
      "step": 150500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.520973422990714e-05,
      "loss": 2.357,
      "step": 150600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5206532180595585e-05,
      "loss": 2.3554,
      "step": 150700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5203330131284025e-05,
      "loss": 2.3666,
      "step": 150800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5200128081972465e-05,
      "loss": 2.3585,
      "step": 150900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5196926032660905e-05,
      "loss": 2.3317,
      "step": 151000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.118267059326172,
      "eval_runtime": 102.3195,
      "eval_samples_per_second": 97.733,
      "eval_steps_per_second": 6.108,
      "step": 151000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5193723983349344e-05,
      "loss": 2.3541,
      "step": 151100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.519052193403779e-05,
      "loss": 2.3664,
      "step": 151200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5187319884726224e-05,
      "loss": 2.3456,
      "step": 151300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.518411783541467e-05,
      "loss": 2.3585,
      "step": 151400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.51809157861031e-05,
      "loss": 2.35,
      "step": 151500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.517771373679155e-05,
      "loss": 2.3357,
      "step": 151600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.517451168747999e-05,
      "loss": 2.3857,
      "step": 151700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.517130963816843e-05,
      "loss": 2.3237,
      "step": 151800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5168107588856876e-05,
      "loss": 2.3676,
      "step": 151900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.516490553954531e-05,
      "loss": 2.3549,
      "step": 152000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.119330883026123,
      "eval_runtime": 98.0261,
      "eval_samples_per_second": 102.014,
      "eval_steps_per_second": 6.376,
      "step": 152000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5161703490233755e-05,
      "loss": 2.3684,
      "step": 152100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.515850144092219e-05,
      "loss": 2.342,
      "step": 152200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5155299391610635e-05,
      "loss": 2.3269,
      "step": 152300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.515209734229907e-05,
      "loss": 2.3443,
      "step": 152400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5148895292987514e-05,
      "loss": 2.3429,
      "step": 152500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5145693243675954e-05,
      "loss": 2.342,
      "step": 152600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5142491194364394e-05,
      "loss": 2.3739,
      "step": 152700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.513928914505284e-05,
      "loss": 2.3418,
      "step": 152800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.513608709574127e-05,
      "loss": 2.3655,
      "step": 152900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.513288504642972e-05,
      "loss": 2.3543,
      "step": 153000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.1150524616241455,
      "eval_runtime": 105.9118,
      "eval_samples_per_second": 94.418,
      "eval_steps_per_second": 5.901,
      "step": 153000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.512968299711815e-05,
      "loss": 2.3261,
      "step": 153100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.51264809478066e-05,
      "loss": 2.3359,
      "step": 153200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.512327889849504e-05,
      "loss": 2.3452,
      "step": 153300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.512007684918348e-05,
      "loss": 2.3345,
      "step": 153400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5116874799871925e-05,
      "loss": 2.3543,
      "step": 153500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.511367275056036e-05,
      "loss": 2.3659,
      "step": 153600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5110470701248805e-05,
      "loss": 2.3691,
      "step": 153700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.510726865193724e-05,
      "loss": 2.3095,
      "step": 153800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5104066602625684e-05,
      "loss": 2.3703,
      "step": 153900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.510086455331412e-05,
      "loss": 2.3472,
      "step": 154000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.11232852935791,
      "eval_runtime": 106.8774,
      "eval_samples_per_second": 93.565,
      "eval_steps_per_second": 5.848,
      "step": 154000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5097662504002564e-05,
      "loss": 2.3285,
      "step": 154100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5094460454691003e-05,
      "loss": 2.3406,
      "step": 154200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.509125840537944e-05,
      "loss": 2.3416,
      "step": 154300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.508805635606789e-05,
      "loss": 2.3448,
      "step": 154400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.508485430675632e-05,
      "loss": 2.3517,
      "step": 154500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.508165225744477e-05,
      "loss": 2.3299,
      "step": 154600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.50784502081332e-05,
      "loss": 2.3324,
      "step": 154700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.507524815882165e-05,
      "loss": 2.3492,
      "step": 154800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.507204610951009e-05,
      "loss": 2.364,
      "step": 154900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.506884406019853e-05,
      "loss": 2.3551,
      "step": 155000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.1174333095550537,
      "eval_runtime": 104.9042,
      "eval_samples_per_second": 95.325,
      "eval_steps_per_second": 5.958,
      "step": 155000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5065642010886975e-05,
      "loss": 2.3671,
      "step": 155100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.506243996157541e-05,
      "loss": 2.3308,
      "step": 155200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5059237912263854e-05,
      "loss": 2.3518,
      "step": 155300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.505603586295229e-05,
      "loss": 2.3348,
      "step": 155400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5052833813640734e-05,
      "loss": 2.3722,
      "step": 155500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.504963176432917e-05,
      "loss": 2.342,
      "step": 155600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.504642971501761e-05,
      "loss": 2.3466,
      "step": 155700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.504322766570605e-05,
      "loss": 2.3696,
      "step": 155800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.504002561639449e-05,
      "loss": 2.334,
      "step": 155900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.503682356708294e-05,
      "loss": 2.33,
      "step": 156000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.1106317043304443,
      "eval_runtime": 104.1673,
      "eval_samples_per_second": 95.999,
      "eval_steps_per_second": 6.0,
      "step": 156000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.503362151777137e-05,
      "loss": 2.3513,
      "step": 156100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.503041946845982e-05,
      "loss": 2.3546,
      "step": 156200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.502721741914825e-05,
      "loss": 2.3502,
      "step": 156300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.50240153698367e-05,
      "loss": 2.3608,
      "step": 156400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.502081332052514e-05,
      "loss": 2.3419,
      "step": 156500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.501761127121358e-05,
      "loss": 2.3551,
      "step": 156600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5014409221902024e-05,
      "loss": 2.3687,
      "step": 156700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.501120717259046e-05,
      "loss": 2.3661,
      "step": 156800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5008005123278903e-05,
      "loss": 2.3244,
      "step": 156900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.5004803073967336e-05,
      "loss": 2.3311,
      "step": 157000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.112415313720703,
      "eval_runtime": 106.7959,
      "eval_samples_per_second": 93.637,
      "eval_steps_per_second": 5.852,
      "step": 157000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.500160102465578e-05,
      "loss": 2.3337,
      "step": 157100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.499839897534422e-05,
      "loss": 2.3335,
      "step": 157200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.499519692603266e-05,
      "loss": 2.345,
      "step": 157300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.49919948767211e-05,
      "loss": 2.3573,
      "step": 157400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.498879282740954e-05,
      "loss": 2.346,
      "step": 157500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.498559077809799e-05,
      "loss": 2.3343,
      "step": 157600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.498238872878642e-05,
      "loss": 2.3256,
      "step": 157700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.497918667947487e-05,
      "loss": 2.3143,
      "step": 157800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.497598463016331e-05,
      "loss": 2.3415,
      "step": 157900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.497278258085175e-05,
      "loss": 2.329,
      "step": 158000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.112299919128418,
      "eval_runtime": 106.3398,
      "eval_samples_per_second": 94.038,
      "eval_steps_per_second": 5.877,
      "step": 158000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.496958053154019e-05,
      "loss": 2.349,
      "step": 158100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.496637848222863e-05,
      "loss": 2.344,
      "step": 158200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.496317643291707e-05,
      "loss": 2.3305,
      "step": 158300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4959974383605506e-05,
      "loss": 2.3363,
      "step": 158400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.495677233429395e-05,
      "loss": 2.3358,
      "step": 158500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.495357028498239e-05,
      "loss": 2.3582,
      "step": 158600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.495036823567083e-05,
      "loss": 2.3356,
      "step": 158700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.494716618635927e-05,
      "loss": 2.333,
      "step": 158800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.494396413704771e-05,
      "loss": 2.3582,
      "step": 158900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.494076208773615e-05,
      "loss": 2.3401,
      "step": 159000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.108461380004883,
      "eval_runtime": 100.716,
      "eval_samples_per_second": 99.289,
      "eval_steps_per_second": 6.206,
      "step": 159000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.493756003842459e-05,
      "loss": 2.3502,
      "step": 159100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.493435798911304e-05,
      "loss": 2.3567,
      "step": 159200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.493115593980147e-05,
      "loss": 2.3507,
      "step": 159300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.492795389048992e-05,
      "loss": 2.331,
      "step": 159400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.492475184117836e-05,
      "loss": 2.3322,
      "step": 159500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.49215497918668e-05,
      "loss": 2.343,
      "step": 159600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4918347742555236e-05,
      "loss": 2.3504,
      "step": 159700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4915145693243676e-05,
      "loss": 2.3479,
      "step": 159800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.491194364393212e-05,
      "loss": 2.3479,
      "step": 159900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4908741594620556e-05,
      "loss": 2.3342,
      "step": 160000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.110170602798462,
      "eval_runtime": 101.8751,
      "eval_samples_per_second": 98.159,
      "eval_steps_per_second": 6.135,
      "step": 160000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4905539545309e-05,
      "loss": 2.3028,
      "step": 160100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.490233749599744e-05,
      "loss": 2.3564,
      "step": 160200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.489913544668588e-05,
      "loss": 2.3284,
      "step": 160300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.489593339737432e-05,
      "loss": 2.3389,
      "step": 160400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.489273134806276e-05,
      "loss": 2.3266,
      "step": 160500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.48895292987512e-05,
      "loss": 2.3293,
      "step": 160600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.488632724943964e-05,
      "loss": 2.3402,
      "step": 160700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.488312520012809e-05,
      "loss": 2.3417,
      "step": 160800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.487992315081653e-05,
      "loss": 2.3339,
      "step": 160900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.487672110150497e-05,
      "loss": 2.3445,
      "step": 161000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.1144986152648926,
      "eval_runtime": 102.2541,
      "eval_samples_per_second": 97.796,
      "eval_steps_per_second": 6.112,
      "step": 161000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4873519052193406e-05,
      "loss": 2.33,
      "step": 161100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4870317002881846e-05,
      "loss": 2.3445,
      "step": 161200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4867114953570286e-05,
      "loss": 2.3527,
      "step": 161300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4863912904258726e-05,
      "loss": 2.3313,
      "step": 161400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.486071085494717e-05,
      "loss": 2.3628,
      "step": 161500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4857508805635605e-05,
      "loss": 2.3557,
      "step": 161600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.485430675632405e-05,
      "loss": 2.3336,
      "step": 161700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.485110470701249e-05,
      "loss": 2.3441,
      "step": 161800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.484790265770093e-05,
      "loss": 2.3505,
      "step": 161900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.484470060838937e-05,
      "loss": 2.3502,
      "step": 162000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.1118264198303223,
      "eval_runtime": 105.0646,
      "eval_samples_per_second": 95.18,
      "eval_steps_per_second": 5.949,
      "step": 162000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.484149855907781e-05,
      "loss": 2.3321,
      "step": 162100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.483829650976625e-05,
      "loss": 2.3499,
      "step": 162200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.483509446045469e-05,
      "loss": 2.3539,
      "step": 162300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4831892411143137e-05,
      "loss": 2.3283,
      "step": 162400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4828690361831576e-05,
      "loss": 2.3426,
      "step": 162500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4825488312520016e-05,
      "loss": 2.3239,
      "step": 162600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4822286263208456e-05,
      "loss": 2.3084,
      "step": 162700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4819084213896896e-05,
      "loss": 2.3316,
      "step": 162800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4815882164585335e-05,
      "loss": 2.3184,
      "step": 162900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4812680115273775e-05,
      "loss": 2.3568,
      "step": 163000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.1064631938934326,
      "eval_runtime": 101.5658,
      "eval_samples_per_second": 98.458,
      "eval_steps_per_second": 6.154,
      "step": 163000
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.480947806596222e-05,
      "loss": 2.3118,
      "step": 163100
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.480627601665066e-05,
      "loss": 2.3477,
      "step": 163200
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.48030739673391e-05,
      "loss": 2.346,
      "step": 163300
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.479987191802754e-05,
      "loss": 2.3316,
      "step": 163400
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.479666986871598e-05,
      "loss": 2.314,
      "step": 163500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.479346781940442e-05,
      "loss": 2.3458,
      "step": 163600
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.479026577009286e-05,
      "loss": 2.3567,
      "step": 163700
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.47870637207813e-05,
      "loss": 2.2955,
      "step": 163800
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.478386167146974e-05,
      "loss": 2.3364,
      "step": 163900
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.4780659622158186e-05,
      "loss": 2.336,
      "step": 164000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.108095407485962,
      "eval_runtime": 103.2966,
      "eval_samples_per_second": 96.809,
      "eval_steps_per_second": 6.051,
      "step": 164000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4777457572846626e-05,
      "loss": 2.3156,
      "step": 164100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4774255523535065e-05,
      "loss": 2.3179,
      "step": 164200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4771053474223505e-05,
      "loss": 2.3196,
      "step": 164300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4767851424911945e-05,
      "loss": 2.3393,
      "step": 164400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4764649375600385e-05,
      "loss": 2.3264,
      "step": 164500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4761447326288824e-05,
      "loss": 2.325,
      "step": 164600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.475824527697727e-05,
      "loss": 2.34,
      "step": 164700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.475504322766571e-05,
      "loss": 2.3403,
      "step": 164800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.475184117835415e-05,
      "loss": 2.3476,
      "step": 164900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.474863912904259e-05,
      "loss": 2.3327,
      "step": 165000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.1036550998687744,
      "eval_runtime": 103.1426,
      "eval_samples_per_second": 96.953,
      "eval_steps_per_second": 6.06,
      "step": 165000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.474543707973103e-05,
      "loss": 2.3095,
      "step": 165100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.474223503041947e-05,
      "loss": 2.3221,
      "step": 165200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.473903298110791e-05,
      "loss": 2.3307,
      "step": 165300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.473583093179635e-05,
      "loss": 2.3339,
      "step": 165400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4732628882484796e-05,
      "loss": 2.3369,
      "step": 165500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4729426833173235e-05,
      "loss": 2.3561,
      "step": 165600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4726224783861675e-05,
      "loss": 2.3313,
      "step": 165700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4723022734550115e-05,
      "loss": 2.3316,
      "step": 165800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4719820685238555e-05,
      "loss": 2.3517,
      "step": 165900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4716618635926994e-05,
      "loss": 2.3328,
      "step": 166000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.108325958251953,
      "eval_runtime": 105.993,
      "eval_samples_per_second": 94.346,
      "eval_steps_per_second": 5.897,
      "step": 166000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4713416586615434e-05,
      "loss": 2.3175,
      "step": 166100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4710214537303874e-05,
      "loss": 2.3382,
      "step": 166200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.470701248799232e-05,
      "loss": 2.3345,
      "step": 166300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.470381043868076e-05,
      "loss": 2.3237,
      "step": 166400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.47006083893692e-05,
      "loss": 2.3462,
      "step": 166500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.469740634005764e-05,
      "loss": 2.3436,
      "step": 166600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.469420429074608e-05,
      "loss": 2.3413,
      "step": 166700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.469100224143452e-05,
      "loss": 2.3314,
      "step": 166800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.468780019212296e-05,
      "loss": 2.3236,
      "step": 166900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.46845981428114e-05,
      "loss": 2.3658,
      "step": 167000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.104519844055176,
      "eval_runtime": 101.0646,
      "eval_samples_per_second": 98.947,
      "eval_steps_per_second": 6.184,
      "step": 167000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4681396093499845e-05,
      "loss": 2.3378,
      "step": 167100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4678194044188285e-05,
      "loss": 2.3128,
      "step": 167200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4674991994876724e-05,
      "loss": 2.3302,
      "step": 167300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4671789945565164e-05,
      "loss": 2.312,
      "step": 167400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4668587896253604e-05,
      "loss": 2.3085,
      "step": 167500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4665385846942044e-05,
      "loss": 2.3575,
      "step": 167600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.466218379763048e-05,
      "loss": 2.3258,
      "step": 167700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.465898174831893e-05,
      "loss": 2.3236,
      "step": 167800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.465577969900737e-05,
      "loss": 2.3223,
      "step": 167900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.465257764969581e-05,
      "loss": 2.3344,
      "step": 168000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.106304168701172,
      "eval_runtime": 104.3176,
      "eval_samples_per_second": 95.861,
      "eval_steps_per_second": 5.991,
      "step": 168000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.464937560038425e-05,
      "loss": 2.3612,
      "step": 168100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.464617355107269e-05,
      "loss": 2.3431,
      "step": 168200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.464297150176113e-05,
      "loss": 2.3472,
      "step": 168300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.463976945244957e-05,
      "loss": 2.3081,
      "step": 168400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4636567403138015e-05,
      "loss": 2.3223,
      "step": 168500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.463336535382645e-05,
      "loss": 2.3197,
      "step": 168600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4630163304514894e-05,
      "loss": 2.3422,
      "step": 168700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4626961255203334e-05,
      "loss": 2.3238,
      "step": 168800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4623759205891774e-05,
      "loss": 2.3394,
      "step": 168900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4620557156580214e-05,
      "loss": 2.3429,
      "step": 169000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.1040380001068115,
      "eval_runtime": 101.4459,
      "eval_samples_per_second": 98.575,
      "eval_steps_per_second": 6.161,
      "step": 169000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.461735510726865e-05,
      "loss": 2.3237,
      "step": 169100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.461415305795709e-05,
      "loss": 2.3473,
      "step": 169200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.461095100864553e-05,
      "loss": 2.3337,
      "step": 169300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.460774895933398e-05,
      "loss": 2.3107,
      "step": 169400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.460454691002241e-05,
      "loss": 2.3174,
      "step": 169500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.460134486071086e-05,
      "loss": 2.3425,
      "step": 169600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.45981428113993e-05,
      "loss": 2.3234,
      "step": 169700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.459494076208774e-05,
      "loss": 2.3219,
      "step": 169800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.459173871277618e-05,
      "loss": 2.3381,
      "step": 169900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.458853666346462e-05,
      "loss": 2.312,
      "step": 170000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.1026594638824463,
      "eval_runtime": 103.0651,
      "eval_samples_per_second": 97.026,
      "eval_steps_per_second": 6.064,
      "step": 170000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4585334614153064e-05,
      "loss": 2.3109,
      "step": 170100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.45821325648415e-05,
      "loss": 2.3389,
      "step": 170200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4578930515529944e-05,
      "loss": 2.3158,
      "step": 170300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4575728466218383e-05,
      "loss": 2.3448,
      "step": 170400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.457252641690682e-05,
      "loss": 2.3263,
      "step": 170500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.456932436759526e-05,
      "loss": 2.357,
      "step": 170600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.45661223182837e-05,
      "loss": 2.3395,
      "step": 170700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.456292026897215e-05,
      "loss": 2.3132,
      "step": 170800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.455971821966058e-05,
      "loss": 2.2982,
      "step": 170900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.455651617034903e-05,
      "loss": 2.3432,
      "step": 171000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.102281093597412,
      "eval_runtime": 100.8947,
      "eval_samples_per_second": 99.113,
      "eval_steps_per_second": 6.195,
      "step": 171000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.455331412103746e-05,
      "loss": 2.3222,
      "step": 171100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.455011207172591e-05,
      "loss": 2.3248,
      "step": 171200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.454691002241435e-05,
      "loss": 2.2865,
      "step": 171300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.454370797310279e-05,
      "loss": 2.3538,
      "step": 171400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.454050592379123e-05,
      "loss": 2.3498,
      "step": 171500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.453730387447967e-05,
      "loss": 2.3264,
      "step": 171600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4534101825168114e-05,
      "loss": 2.3424,
      "step": 171700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4530899775856547e-05,
      "loss": 2.3114,
      "step": 171800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.452769772654499e-05,
      "loss": 2.3252,
      "step": 171900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.452449567723343e-05,
      "loss": 2.3258,
      "step": 172000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.1028735637664795,
      "eval_runtime": 103.3832,
      "eval_samples_per_second": 96.727,
      "eval_steps_per_second": 6.045,
      "step": 172000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.452129362792187e-05,
      "loss": 2.3012,
      "step": 172100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.451809157861031e-05,
      "loss": 2.3486,
      "step": 172200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.451488952929875e-05,
      "loss": 2.3446,
      "step": 172300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.45116874799872e-05,
      "loss": 2.3492,
      "step": 172400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.450848543067563e-05,
      "loss": 2.3221,
      "step": 172500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.450528338136408e-05,
      "loss": 2.33,
      "step": 172600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.450208133205251e-05,
      "loss": 2.3299,
      "step": 172700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.449887928274096e-05,
      "loss": 2.3387,
      "step": 172800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.44956772334294e-05,
      "loss": 2.3252,
      "step": 172900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.449247518411784e-05,
      "loss": 2.3103,
      "step": 173000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.0996875762939453,
      "eval_runtime": 102.3967,
      "eval_samples_per_second": 97.659,
      "eval_steps_per_second": 6.104,
      "step": 173000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4489273134806283e-05,
      "loss": 2.3342,
      "step": 173100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4486071085494716e-05,
      "loss": 2.328,
      "step": 173200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.448286903618316e-05,
      "loss": 2.3203,
      "step": 173300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4479666986871596e-05,
      "loss": 2.3053,
      "step": 173400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.447646493756004e-05,
      "loss": 2.3421,
      "step": 173500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.447326288824848e-05,
      "loss": 2.3188,
      "step": 173600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.447006083893692e-05,
      "loss": 2.3221,
      "step": 173700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.446685878962536e-05,
      "loss": 2.3059,
      "step": 173800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.44636567403138e-05,
      "loss": 2.3582,
      "step": 173900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.446045469100225e-05,
      "loss": 2.2992,
      "step": 174000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.1052756309509277,
      "eval_runtime": 104.2958,
      "eval_samples_per_second": 95.881,
      "eval_steps_per_second": 5.993,
      "step": 174000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.445725264169068e-05,
      "loss": 2.3257,
      "step": 174100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.445405059237913e-05,
      "loss": 2.3024,
      "step": 174200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.445084854306756e-05,
      "loss": 2.306,
      "step": 174300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.444764649375601e-05,
      "loss": 2.3293,
      "step": 174400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4444444444444447e-05,
      "loss": 2.3266,
      "step": 174500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4441242395132886e-05,
      "loss": 2.3324,
      "step": 174600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.443804034582133e-05,
      "loss": 2.3169,
      "step": 174700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4434838296509766e-05,
      "loss": 2.3217,
      "step": 174800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.443163624719821e-05,
      "loss": 2.3072,
      "step": 174900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4428434197886645e-05,
      "loss": 2.3142,
      "step": 175000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.099902391433716,
      "eval_runtime": 107.3127,
      "eval_samples_per_second": 93.186,
      "eval_steps_per_second": 5.824,
      "step": 175000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.442523214857509e-05,
      "loss": 2.3122,
      "step": 175100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.442203009926353e-05,
      "loss": 2.3509,
      "step": 175200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.441882804995197e-05,
      "loss": 2.3031,
      "step": 175300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.441562600064042e-05,
      "loss": 2.2977,
      "step": 175400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.441242395132885e-05,
      "loss": 2.3312,
      "step": 175500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.44092219020173e-05,
      "loss": 2.3308,
      "step": 175600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.440601985270573e-05,
      "loss": 2.3249,
      "step": 175700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.440281780339418e-05,
      "loss": 2.2981,
      "step": 175800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.439961575408261e-05,
      "loss": 2.3202,
      "step": 175900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4396413704771056e-05,
      "loss": 2.3126,
      "step": 176000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.1036081314086914,
      "eval_runtime": 102.0535,
      "eval_samples_per_second": 97.988,
      "eval_steps_per_second": 6.124,
      "step": 176000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4393211655459496e-05,
      "loss": 2.323,
      "step": 176100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4390009606147936e-05,
      "loss": 2.3108,
      "step": 176200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.438680755683638e-05,
      "loss": 2.312,
      "step": 176300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4383605507524815e-05,
      "loss": 2.3506,
      "step": 176400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.438040345821326e-05,
      "loss": 2.3033,
      "step": 176500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4377201408901695e-05,
      "loss": 2.3305,
      "step": 176600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.437399935959014e-05,
      "loss": 2.3332,
      "step": 176700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.437079731027858e-05,
      "loss": 2.3369,
      "step": 176800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.436759526096702e-05,
      "loss": 2.3535,
      "step": 176900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.436439321165547e-05,
      "loss": 2.3138,
      "step": 177000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.1037700176239014,
      "eval_runtime": 105.1859,
      "eval_samples_per_second": 95.07,
      "eval_steps_per_second": 5.942,
      "step": 177000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.43611911623439e-05,
      "loss": 2.3262,
      "step": 177100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.435798911303235e-05,
      "loss": 2.329,
      "step": 177200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.435478706372078e-05,
      "loss": 2.3292,
      "step": 177300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4351585014409226e-05,
      "loss": 2.3079,
      "step": 177400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.434838296509766e-05,
      "loss": 2.2818,
      "step": 177500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4345180915786106e-05,
      "loss": 2.3337,
      "step": 177600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4341978866474545e-05,
      "loss": 2.3185,
      "step": 177700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4338776817162985e-05,
      "loss": 2.3141,
      "step": 177800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.433557476785143e-05,
      "loss": 2.3098,
      "step": 177900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4332372718539865e-05,
      "loss": 2.3262,
      "step": 178000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.0980606079101562,
      "eval_runtime": 102.0782,
      "eval_samples_per_second": 97.964,
      "eval_steps_per_second": 6.123,
      "step": 178000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.432917066922831e-05,
      "loss": 2.3297,
      "step": 178100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4325968619916744e-05,
      "loss": 2.316,
      "step": 178200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.432276657060519e-05,
      "loss": 2.304,
      "step": 178300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.431956452129363e-05,
      "loss": 2.331,
      "step": 178400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.431636247198207e-05,
      "loss": 2.3329,
      "step": 178500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4313160422670517e-05,
      "loss": 2.3259,
      "step": 178600
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.430995837335895e-05,
      "loss": 2.3209,
      "step": 178700
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4306756324047396e-05,
      "loss": 2.2943,
      "step": 178800
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.430355427473583e-05,
      "loss": 2.3255,
      "step": 178900
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4300352225424275e-05,
      "loss": 2.3403,
      "step": 179000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.09698486328125,
      "eval_runtime": 103.7844,
      "eval_samples_per_second": 96.354,
      "eval_steps_per_second": 6.022,
      "step": 179000
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.429715017611271e-05,
      "loss": 2.3254,
      "step": 179100
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4293948126801155e-05,
      "loss": 2.298,
      "step": 179200
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4290746077489595e-05,
      "loss": 2.3068,
      "step": 179300
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4287544028178034e-05,
      "loss": 2.3222,
      "step": 179400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.428434197886648e-05,
      "loss": 2.3045,
      "step": 179500
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.4281139929554914e-05,
      "loss": 2.3351,
      "step": 179600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.427793788024336e-05,
      "loss": 2.3196,
      "step": 179700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.427473583093179e-05,
      "loss": 2.3015,
      "step": 179800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.427153378162024e-05,
      "loss": 2.2932,
      "step": 179900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.426833173230868e-05,
      "loss": 2.3117,
      "step": 180000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.099308729171753,
      "eval_runtime": 103.6942,
      "eval_samples_per_second": 96.437,
      "eval_steps_per_second": 6.027,
      "step": 180000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.426512968299712e-05,
      "loss": 2.3111,
      "step": 180100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4261927633685566e-05,
      "loss": 2.3335,
      "step": 180200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4258725584374e-05,
      "loss": 2.3313,
      "step": 180300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4255523535062445e-05,
      "loss": 2.3202,
      "step": 180400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.425232148575088e-05,
      "loss": 2.2986,
      "step": 180500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4249119436439325e-05,
      "loss": 2.3014,
      "step": 180600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4245917387127765e-05,
      "loss": 2.2944,
      "step": 180700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4242715337816204e-05,
      "loss": 2.314,
      "step": 180800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4239513288504644e-05,
      "loss": 2.3028,
      "step": 180900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4236311239193084e-05,
      "loss": 2.3115,
      "step": 181000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.094910144805908,
      "eval_runtime": 101.1421,
      "eval_samples_per_second": 98.871,
      "eval_steps_per_second": 6.179,
      "step": 181000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.423310918988153e-05,
      "loss": 2.3346,
      "step": 181100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.422990714056996e-05,
      "loss": 2.3037,
      "step": 181200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.422670509125841e-05,
      "loss": 2.2775,
      "step": 181300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.422350304194684e-05,
      "loss": 2.3208,
      "step": 181400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.422030099263529e-05,
      "loss": 2.3024,
      "step": 181500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.421709894332373e-05,
      "loss": 2.3248,
      "step": 181600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.421389689401217e-05,
      "loss": 2.3234,
      "step": 181700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4210694844700615e-05,
      "loss": 2.2902,
      "step": 181800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.420749279538905e-05,
      "loss": 2.291,
      "step": 181900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4204290746077495e-05,
      "loss": 2.2946,
      "step": 182000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.0982115268707275,
      "eval_runtime": 100.8432,
      "eval_samples_per_second": 99.164,
      "eval_steps_per_second": 6.198,
      "step": 182000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.420108869676593e-05,
      "loss": 2.3162,
      "step": 182100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4197886647454374e-05,
      "loss": 2.2956,
      "step": 182200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4194684598142814e-05,
      "loss": 2.3132,
      "step": 182300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4191482548831254e-05,
      "loss": 2.3054,
      "step": 182400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4188280499519693e-05,
      "loss": 2.3033,
      "step": 182500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.418507845020813e-05,
      "loss": 2.3424,
      "step": 182600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.418187640089658e-05,
      "loss": 2.2801,
      "step": 182700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.417867435158501e-05,
      "loss": 2.3148,
      "step": 182800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.417547230227346e-05,
      "loss": 2.3219,
      "step": 182900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.41722702529619e-05,
      "loss": 2.3175,
      "step": 183000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.09415864944458,
      "eval_runtime": 105.9613,
      "eval_samples_per_second": 94.374,
      "eval_steps_per_second": 5.898,
      "step": 183000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.416906820365034e-05,
      "loss": 2.3155,
      "step": 183100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.416586615433878e-05,
      "loss": 2.322,
      "step": 183200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.416266410502722e-05,
      "loss": 2.3357,
      "step": 183300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4159462055715665e-05,
      "loss": 2.3192,
      "step": 183400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.41562600064041e-05,
      "loss": 2.3119,
      "step": 183500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4153057957092544e-05,
      "loss": 2.3132,
      "step": 183600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.414985590778098e-05,
      "loss": 2.3036,
      "step": 183700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4146653858469424e-05,
      "loss": 2.2859,
      "step": 183800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.414345180915786e-05,
      "loss": 2.3154,
      "step": 183900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.41402497598463e-05,
      "loss": 2.318,
      "step": 184000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.0918667316436768,
      "eval_runtime": 102.3733,
      "eval_samples_per_second": 97.682,
      "eval_steps_per_second": 6.105,
      "step": 184000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.413704771053474e-05,
      "loss": 2.3336,
      "step": 184100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.413384566122318e-05,
      "loss": 2.3332,
      "step": 184200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.413064361191163e-05,
      "loss": 2.3179,
      "step": 184300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.412744156260006e-05,
      "loss": 2.3156,
      "step": 184400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.412423951328851e-05,
      "loss": 2.3016,
      "step": 184500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.412103746397695e-05,
      "loss": 2.3199,
      "step": 184600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.411783541466539e-05,
      "loss": 2.3149,
      "step": 184700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.411463336535383e-05,
      "loss": 2.2907,
      "step": 184800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.411143131604227e-05,
      "loss": 2.312,
      "step": 184900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4108229266730714e-05,
      "loss": 2.3021,
      "step": 185000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.096562385559082,
      "eval_runtime": 102.2231,
      "eval_samples_per_second": 97.825,
      "eval_steps_per_second": 6.114,
      "step": 185000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.410502721741915e-05,
      "loss": 2.3144,
      "step": 185100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4101825168107593e-05,
      "loss": 2.3465,
      "step": 185200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.409862311879603e-05,
      "loss": 2.2981,
      "step": 185300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.409542106948447e-05,
      "loss": 2.3126,
      "step": 185400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.409221902017291e-05,
      "loss": 2.3175,
      "step": 185500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.408901697086135e-05,
      "loss": 2.3364,
      "step": 185600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.408581492154979e-05,
      "loss": 2.3231,
      "step": 185700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.408261287223823e-05,
      "loss": 2.3128,
      "step": 185800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.407941082292668e-05,
      "loss": 2.3266,
      "step": 185900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.407620877361511e-05,
      "loss": 2.3254,
      "step": 186000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.0941004753112793,
      "eval_runtime": 106.9626,
      "eval_samples_per_second": 93.491,
      "eval_steps_per_second": 5.843,
      "step": 186000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.407300672430356e-05,
      "loss": 2.309,
      "step": 186100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4069804674992e-05,
      "loss": 2.3291,
      "step": 186200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.406660262568044e-05,
      "loss": 2.3286,
      "step": 186300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.406340057636888e-05,
      "loss": 2.3196,
      "step": 186400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.406019852705732e-05,
      "loss": 2.3257,
      "step": 186500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.405699647774576e-05,
      "loss": 2.3054,
      "step": 186600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4053794428434196e-05,
      "loss": 2.3194,
      "step": 186700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.405059237912264e-05,
      "loss": 2.342,
      "step": 186800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.404739032981108e-05,
      "loss": 2.3314,
      "step": 186900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.404418828049952e-05,
      "loss": 2.3112,
      "step": 187000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.0920281410217285,
      "eval_runtime": 100.96,
      "eval_samples_per_second": 99.049,
      "eval_steps_per_second": 6.191,
      "step": 187000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.404098623118796e-05,
      "loss": 2.3122,
      "step": 187100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.40377841818764e-05,
      "loss": 2.2957,
      "step": 187200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.403458213256484e-05,
      "loss": 2.3071,
      "step": 187300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.403138008325328e-05,
      "loss": 2.3073,
      "step": 187400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.402817803394173e-05,
      "loss": 2.3047,
      "step": 187500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.402497598463017e-05,
      "loss": 2.3103,
      "step": 187600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.402177393531861e-05,
      "loss": 2.3133,
      "step": 187700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.401857188600705e-05,
      "loss": 2.2903,
      "step": 187800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.401536983669549e-05,
      "loss": 2.3187,
      "step": 187900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4012167787383926e-05,
      "loss": 2.3124,
      "step": 188000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.096961736679077,
      "eval_runtime": 100.2681,
      "eval_samples_per_second": 99.733,
      "eval_steps_per_second": 6.233,
      "step": 188000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4008965738072366e-05,
      "loss": 2.3027,
      "step": 188100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.4005763688760806e-05,
      "loss": 2.3023,
      "step": 188200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.400256163944925e-05,
      "loss": 2.3165,
      "step": 188300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.399935959013769e-05,
      "loss": 2.3256,
      "step": 188400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.399615754082613e-05,
      "loss": 2.3261,
      "step": 188500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.399295549151457e-05,
      "loss": 2.294,
      "step": 188600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.398975344220301e-05,
      "loss": 2.3169,
      "step": 188700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.398655139289145e-05,
      "loss": 2.3059,
      "step": 188800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.398334934357989e-05,
      "loss": 2.3352,
      "step": 188900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.398014729426833e-05,
      "loss": 2.3198,
      "step": 189000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.091853141784668,
      "eval_runtime": 104.8203,
      "eval_samples_per_second": 95.401,
      "eval_steps_per_second": 5.963,
      "step": 189000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.397694524495678e-05,
      "loss": 2.3092,
      "step": 189100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.397374319564522e-05,
      "loss": 2.3217,
      "step": 189200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.397054114633366e-05,
      "loss": 2.2891,
      "step": 189300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3967339097022096e-05,
      "loss": 2.3111,
      "step": 189400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3964137047710536e-05,
      "loss": 2.316,
      "step": 189500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3960934998398976e-05,
      "loss": 2.2934,
      "step": 189600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3957732949087416e-05,
      "loss": 2.3234,
      "step": 189700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3954530899775855e-05,
      "loss": 2.32,
      "step": 189800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.39513288504643e-05,
      "loss": 2.3096,
      "step": 189900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.394812680115274e-05,
      "loss": 2.311,
      "step": 190000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.0895636081695557,
      "eval_runtime": 105.7701,
      "eval_samples_per_second": 94.545,
      "eval_steps_per_second": 5.909,
      "step": 190000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.394492475184118e-05,
      "loss": 2.3057,
      "step": 190100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.394172270252962e-05,
      "loss": 2.3237,
      "step": 190200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.393852065321806e-05,
      "loss": 2.2956,
      "step": 190300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.39353186039065e-05,
      "loss": 2.3294,
      "step": 190400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.393211655459494e-05,
      "loss": 2.2805,
      "step": 190500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.392891450528339e-05,
      "loss": 2.2829,
      "step": 190600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3925712455971827e-05,
      "loss": 2.3246,
      "step": 190700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3922510406660266e-05,
      "loss": 2.2903,
      "step": 190800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3919308357348706e-05,
      "loss": 2.3134,
      "step": 190900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3916106308037146e-05,
      "loss": 2.289,
      "step": 191000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.0875444412231445,
      "eval_runtime": 103.9105,
      "eval_samples_per_second": 96.237,
      "eval_steps_per_second": 6.015,
      "step": 191000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3912904258725585e-05,
      "loss": 2.3271,
      "step": 191100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3909702209414025e-05,
      "loss": 2.2972,
      "step": 191200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3906500160102465e-05,
      "loss": 2.2936,
      "step": 191300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3903298110790905e-05,
      "loss": 2.3002,
      "step": 191400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.390009606147935e-05,
      "loss": 2.3159,
      "step": 191500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.389689401216779e-05,
      "loss": 2.329,
      "step": 191600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.389369196285623e-05,
      "loss": 2.2652,
      "step": 191700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.389048991354467e-05,
      "loss": 2.3181,
      "step": 191800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.388728786423311e-05,
      "loss": 2.3185,
      "step": 191900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.388408581492155e-05,
      "loss": 2.3022,
      "step": 192000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.0899605751037598,
      "eval_runtime": 101.6508,
      "eval_samples_per_second": 98.376,
      "eval_steps_per_second": 6.149,
      "step": 192000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.388088376560999e-05,
      "loss": 2.3185,
      "step": 192100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3877681716298436e-05,
      "loss": 2.3128,
      "step": 192200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3874479666986876e-05,
      "loss": 2.3259,
      "step": 192300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3871277617675316e-05,
      "loss": 2.3113,
      "step": 192400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3868075568363755e-05,
      "loss": 2.3064,
      "step": 192500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3864873519052195e-05,
      "loss": 2.3064,
      "step": 192600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3861671469740635e-05,
      "loss": 2.3217,
      "step": 192700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3858469420429075e-05,
      "loss": 2.2694,
      "step": 192800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.385526737111752e-05,
      "loss": 2.3036,
      "step": 192900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3852065321805954e-05,
      "loss": 2.2953,
      "step": 193000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.093989372253418,
      "eval_runtime": 101.5886,
      "eval_samples_per_second": 98.436,
      "eval_steps_per_second": 6.152,
      "step": 193000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.38488632724944e-05,
      "loss": 2.2933,
      "step": 193100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.384566122318284e-05,
      "loss": 2.3063,
      "step": 193200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.384245917387128e-05,
      "loss": 2.3064,
      "step": 193300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.383925712455972e-05,
      "loss": 2.3249,
      "step": 193400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.383605507524816e-05,
      "loss": 2.2842,
      "step": 193500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.38328530259366e-05,
      "loss": 2.3228,
      "step": 193600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.382965097662504e-05,
      "loss": 2.2879,
      "step": 193700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3826448927313486e-05,
      "loss": 2.2832,
      "step": 193800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3823246878001925e-05,
      "loss": 2.3012,
      "step": 193900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3820044828690365e-05,
      "loss": 2.319,
      "step": 194000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.0951969623565674,
      "eval_runtime": 97.7956,
      "eval_samples_per_second": 102.254,
      "eval_steps_per_second": 6.391,
      "step": 194000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3816842779378805e-05,
      "loss": 2.2863,
      "step": 194100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3813640730067245e-05,
      "loss": 2.2794,
      "step": 194200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3810438680755684e-05,
      "loss": 2.2979,
      "step": 194300
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3807236631444124e-05,
      "loss": 2.2789,
      "step": 194400
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.380403458213257e-05,
      "loss": 2.3252,
      "step": 194500
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3800832532821003e-05,
      "loss": 2.3264,
      "step": 194600
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.379763048350945e-05,
      "loss": 2.3043,
      "step": 194700
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.379442843419789e-05,
      "loss": 2.2896,
      "step": 194800
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.379122638488633e-05,
      "loss": 2.3092,
      "step": 194900
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.378802433557477e-05,
      "loss": 2.3104,
      "step": 195000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.0916037559509277,
      "eval_runtime": 101.0833,
      "eval_samples_per_second": 98.928,
      "eval_steps_per_second": 6.183,
      "step": 195000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.378482228626321e-05,
      "loss": 2.2839,
      "step": 195100
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.3781620236951655e-05,
      "loss": 2.3218,
      "step": 195200
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.377841818764009e-05,
      "loss": 2.2887,
      "step": 195300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3775216138328535e-05,
      "loss": 2.3001,
      "step": 195400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3772014089016975e-05,
      "loss": 2.2812,
      "step": 195500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3768812039705414e-05,
      "loss": 2.3186,
      "step": 195600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3765609990393854e-05,
      "loss": 2.2884,
      "step": 195700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3762407941082294e-05,
      "loss": 2.3223,
      "step": 195800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3759205891770734e-05,
      "loss": 2.3381,
      "step": 195900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.375600384245917e-05,
      "loss": 2.2715,
      "step": 196000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.087327003479004,
      "eval_runtime": 106.2681,
      "eval_samples_per_second": 94.102,
      "eval_steps_per_second": 5.881,
      "step": 196000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.375280179314762e-05,
      "loss": 2.2792,
      "step": 196100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.374959974383605e-05,
      "loss": 2.3022,
      "step": 196200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.37463976945245e-05,
      "loss": 2.3243,
      "step": 196300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.374319564521294e-05,
      "loss": 2.3136,
      "step": 196400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.373999359590138e-05,
      "loss": 2.2861,
      "step": 196500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.373679154658982e-05,
      "loss": 2.3203,
      "step": 196600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.373358949727826e-05,
      "loss": 2.2686,
      "step": 196700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3730387447966705e-05,
      "loss": 2.3042,
      "step": 196800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.372718539865514e-05,
      "loss": 2.3013,
      "step": 196900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3723983349343584e-05,
      "loss": 2.314,
      "step": 197000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.0896546840667725,
      "eval_runtime": 108.9394,
      "eval_samples_per_second": 91.794,
      "eval_steps_per_second": 5.737,
      "step": 197000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3720781300032024e-05,
      "loss": 2.3065,
      "step": 197100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3717579250720464e-05,
      "loss": 2.2872,
      "step": 197200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3714377201408904e-05,
      "loss": 2.2997,
      "step": 197300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.371117515209734e-05,
      "loss": 2.2983,
      "step": 197400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.370797310278579e-05,
      "loss": 2.3028,
      "step": 197500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.370477105347422e-05,
      "loss": 2.2701,
      "step": 197600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.370156900416267e-05,
      "loss": 2.3073,
      "step": 197700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.36983669548511e-05,
      "loss": 2.3156,
      "step": 197800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.369516490553955e-05,
      "loss": 2.3084,
      "step": 197900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.369196285622799e-05,
      "loss": 2.3211,
      "step": 198000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.08371901512146,
      "eval_runtime": 105.6973,
      "eval_samples_per_second": 94.61,
      "eval_steps_per_second": 5.913,
      "step": 198000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.368876080691643e-05,
      "loss": 2.3096,
      "step": 198100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3685558757604875e-05,
      "loss": 2.277,
      "step": 198200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.368235670829331e-05,
      "loss": 2.288,
      "step": 198300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3679154658981754e-05,
      "loss": 2.3215,
      "step": 198400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.367595260967019e-05,
      "loss": 2.3114,
      "step": 198500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3672750560358634e-05,
      "loss": 2.2958,
      "step": 198600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3669548511047073e-05,
      "loss": 2.3065,
      "step": 198700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.366634646173551e-05,
      "loss": 2.3099,
      "step": 198800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.366314441242395e-05,
      "loss": 2.29,
      "step": 198900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.365994236311239e-05,
      "loss": 2.2926,
      "step": 199000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.0824432373046875,
      "eval_runtime": 105.5712,
      "eval_samples_per_second": 94.723,
      "eval_steps_per_second": 5.92,
      "step": 199000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.365674031380084e-05,
      "loss": 2.3016,
      "step": 199100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.365353826448927e-05,
      "loss": 2.2895,
      "step": 199200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.365033621517772e-05,
      "loss": 2.2923,
      "step": 199300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.364713416586615e-05,
      "loss": 2.3099,
      "step": 199400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.36439321165546e-05,
      "loss": 2.3027,
      "step": 199500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.364073006724304e-05,
      "loss": 2.2874,
      "step": 199600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.363752801793148e-05,
      "loss": 2.3026,
      "step": 199700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3634325968619924e-05,
      "loss": 2.3073,
      "step": 199800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.363112391930836e-05,
      "loss": 2.3103,
      "step": 199900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3627921869996804e-05,
      "loss": 2.314,
      "step": 200000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.088610887527466,
      "eval_runtime": 104.639,
      "eval_samples_per_second": 95.567,
      "eval_steps_per_second": 5.973,
      "step": 200000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3624719820685237e-05,
      "loss": 2.3042,
      "step": 200100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.362151777137368e-05,
      "loss": 2.3057,
      "step": 200200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.361831572206212e-05,
      "loss": 2.2632,
      "step": 200300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.361511367275056e-05,
      "loss": 2.3012,
      "step": 200400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.361191162343901e-05,
      "loss": 2.3213,
      "step": 200500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.360870957412744e-05,
      "loss": 2.3119,
      "step": 200600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.360550752481589e-05,
      "loss": 2.2902,
      "step": 200700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.360230547550432e-05,
      "loss": 2.3219,
      "step": 200800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.359910342619277e-05,
      "loss": 2.3171,
      "step": 200900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.35959013768812e-05,
      "loss": 2.2885,
      "step": 201000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.088263750076294,
      "eval_runtime": 100.2825,
      "eval_samples_per_second": 99.718,
      "eval_steps_per_second": 6.232,
      "step": 201000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.359269932756965e-05,
      "loss": 2.3133,
      "step": 201100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.358949727825809e-05,
      "loss": 2.2796,
      "step": 201200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.358629522894653e-05,
      "loss": 2.3147,
      "step": 201300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3583093179634973e-05,
      "loss": 2.3048,
      "step": 201400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3579891130323406e-05,
      "loss": 2.2889,
      "step": 201500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.357668908101185e-05,
      "loss": 2.2978,
      "step": 201600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3573487031700286e-05,
      "loss": 2.3167,
      "step": 201700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.357028498238873e-05,
      "loss": 2.2787,
      "step": 201800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.356708293307717e-05,
      "loss": 2.3084,
      "step": 201900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.356388088376561e-05,
      "loss": 2.2875,
      "step": 202000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.0838544368743896,
      "eval_runtime": 97.0267,
      "eval_samples_per_second": 103.064,
      "eval_steps_per_second": 6.442,
      "step": 202000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.356067883445406e-05,
      "loss": 2.3137,
      "step": 202100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.355747678514249e-05,
      "loss": 2.2925,
      "step": 202200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.355427473583094e-05,
      "loss": 2.295,
      "step": 202300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.355107268651937e-05,
      "loss": 2.3095,
      "step": 202400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.354787063720782e-05,
      "loss": 2.3097,
      "step": 202500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.354466858789625e-05,
      "loss": 2.3358,
      "step": 202600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.35414665385847e-05,
      "loss": 2.3106,
      "step": 202700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3538264489273137e-05,
      "loss": 2.3033,
      "step": 202800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3535062439961576e-05,
      "loss": 2.311,
      "step": 202900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.353186039065002e-05,
      "loss": 2.2872,
      "step": 203000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.086426019668579,
      "eval_runtime": 100.906,
      "eval_samples_per_second": 99.102,
      "eval_steps_per_second": 6.194,
      "step": 203000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3528658341338456e-05,
      "loss": 2.302,
      "step": 203100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.35254562920269e-05,
      "loss": 2.2987,
      "step": 203200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3522254242715335e-05,
      "loss": 2.3084,
      "step": 203300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.351905219340378e-05,
      "loss": 2.2599,
      "step": 203400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.351585014409222e-05,
      "loss": 2.3046,
      "step": 203500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.351264809478066e-05,
      "loss": 2.2871,
      "step": 203600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.350944604546911e-05,
      "loss": 2.2753,
      "step": 203700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.350624399615754e-05,
      "loss": 2.2895,
      "step": 203800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.350304194684599e-05,
      "loss": 2.2786,
      "step": 203900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.349983989753442e-05,
      "loss": 2.2671,
      "step": 204000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.0839855670928955,
      "eval_runtime": 104.8014,
      "eval_samples_per_second": 95.419,
      "eval_steps_per_second": 5.964,
      "step": 204000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.349663784822287e-05,
      "loss": 2.2689,
      "step": 204100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.34934357989113e-05,
      "loss": 2.2856,
      "step": 204200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3490233749599746e-05,
      "loss": 2.2983,
      "step": 204300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3487031700288186e-05,
      "loss": 2.271,
      "step": 204400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3483829650976626e-05,
      "loss": 2.2554,
      "step": 204500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.348062760166507e-05,
      "loss": 2.2898,
      "step": 204600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3477425552353505e-05,
      "loss": 2.3273,
      "step": 204700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.347422350304195e-05,
      "loss": 2.3078,
      "step": 204800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3471021453730385e-05,
      "loss": 2.2991,
      "step": 204900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.346781940441883e-05,
      "loss": 2.3005,
      "step": 205000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.081695318222046,
      "eval_runtime": 110.7615,
      "eval_samples_per_second": 90.284,
      "eval_steps_per_second": 5.643,
      "step": 205000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.346461735510727e-05,
      "loss": 2.3177,
      "step": 205100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.346141530579571e-05,
      "loss": 2.3045,
      "step": 205200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.345821325648416e-05,
      "loss": 2.313,
      "step": 205300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.345501120717259e-05,
      "loss": 2.282,
      "step": 205400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.345180915786104e-05,
      "loss": 2.3007,
      "step": 205500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.344860710854947e-05,
      "loss": 2.2803,
      "step": 205600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3445405059237916e-05,
      "loss": 2.3084,
      "step": 205700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3442203009926356e-05,
      "loss": 2.2978,
      "step": 205800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3439000960614796e-05,
      "loss": 2.2604,
      "step": 205900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3435798911303235e-05,
      "loss": 2.2814,
      "step": 206000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.0830869674682617,
      "eval_runtime": 105.1235,
      "eval_samples_per_second": 95.126,
      "eval_steps_per_second": 5.945,
      "step": 206000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3432596861991675e-05,
      "loss": 2.2765,
      "step": 206100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.342939481268012e-05,
      "loss": 2.3055,
      "step": 206200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3426192763368555e-05,
      "loss": 2.3038,
      "step": 206300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3422990714057e-05,
      "loss": 2.3099,
      "step": 206400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3419788664745434e-05,
      "loss": 2.2865,
      "step": 206500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.341658661543388e-05,
      "loss": 2.2716,
      "step": 206600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.341338456612232e-05,
      "loss": 2.2943,
      "step": 206700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.341018251681076e-05,
      "loss": 2.2812,
      "step": 206800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.34069804674992e-05,
      "loss": 2.3156,
      "step": 206900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.340377841818764e-05,
      "loss": 2.2822,
      "step": 207000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.0866081714630127,
      "eval_runtime": 105.2011,
      "eval_samples_per_second": 95.056,
      "eval_steps_per_second": 5.941,
      "step": 207000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3400576368876086e-05,
      "loss": 2.3056,
      "step": 207100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.339737431956452e-05,
      "loss": 2.3076,
      "step": 207200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3394172270252965e-05,
      "loss": 2.293,
      "step": 207300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3390970220941405e-05,
      "loss": 2.2959,
      "step": 207400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3387768171629845e-05,
      "loss": 2.3071,
      "step": 207500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3384566122318285e-05,
      "loss": 2.3108,
      "step": 207600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3381364073006724e-05,
      "loss": 2.2956,
      "step": 207700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.337816202369517e-05,
      "loss": 2.2806,
      "step": 207800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3374959974383604e-05,
      "loss": 2.275,
      "step": 207900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.337175792507205e-05,
      "loss": 2.2826,
      "step": 208000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.079533100128174,
      "eval_runtime": 103.6684,
      "eval_samples_per_second": 96.461,
      "eval_steps_per_second": 6.029,
      "step": 208000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.336855587576049e-05,
      "loss": 2.2634,
      "step": 208100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.336535382644893e-05,
      "loss": 2.2658,
      "step": 208200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.336215177713737e-05,
      "loss": 2.3034,
      "step": 208300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.335894972782581e-05,
      "loss": 2.3015,
      "step": 208400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.335574767851425e-05,
      "loss": 2.3039,
      "step": 208500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.335254562920269e-05,
      "loss": 2.2749,
      "step": 208600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3349343579891135e-05,
      "loss": 2.2947,
      "step": 208700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.334614153057957e-05,
      "loss": 2.2869,
      "step": 208800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3342939481268015e-05,
      "loss": 2.2768,
      "step": 208900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3339737431956455e-05,
      "loss": 2.3006,
      "step": 209000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.078490734100342,
      "eval_runtime": 107.4506,
      "eval_samples_per_second": 93.066,
      "eval_steps_per_second": 5.817,
      "step": 209000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3336535382644894e-05,
      "loss": 2.297,
      "step": 209100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3333333333333334e-05,
      "loss": 2.2788,
      "step": 209200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3330131284021774e-05,
      "loss": 2.2758,
      "step": 209300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.332692923471022e-05,
      "loss": 2.2733,
      "step": 209400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.332372718539865e-05,
      "loss": 2.2788,
      "step": 209500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.33205251360871e-05,
      "loss": 2.311,
      "step": 209600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.331732308677554e-05,
      "loss": 2.2948,
      "step": 209700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.331412103746398e-05,
      "loss": 2.2871,
      "step": 209800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.331091898815242e-05,
      "loss": 2.2865,
      "step": 209900
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.330771693884086e-05,
      "loss": 2.323,
      "step": 210000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.0818123817443848,
      "eval_runtime": 100.6332,
      "eval_samples_per_second": 99.371,
      "eval_steps_per_second": 6.211,
      "step": 210000
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.33045148895293e-05,
      "loss": 2.3011,
      "step": 210100
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.330131284021774e-05,
      "loss": 2.2626,
      "step": 210200
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3298110790906185e-05,
      "loss": 2.3008,
      "step": 210300
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3294908741594624e-05,
      "loss": 2.2787,
      "step": 210400
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3291706692283064e-05,
      "loss": 2.2728,
      "step": 210500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3288504642971504e-05,
      "loss": 2.2882,
      "step": 210600
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3285302593659944e-05,
      "loss": 2.2993,
      "step": 210700
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.3282100544348383e-05,
      "loss": 2.3028,
      "step": 210800
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.327889849503682e-05,
      "loss": 2.2987,
      "step": 210900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.327569644572527e-05,
      "loss": 2.2905,
      "step": 211000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.084787368774414,
      "eval_runtime": 104.7252,
      "eval_samples_per_second": 95.488,
      "eval_steps_per_second": 5.968,
      "step": 211000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.32724943964137e-05,
      "loss": 2.284,
      "step": 211100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.326929234710215e-05,
      "loss": 2.2912,
      "step": 211200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.326609029779059e-05,
      "loss": 2.3015,
      "step": 211300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.326288824847903e-05,
      "loss": 2.295,
      "step": 211400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.325968619916747e-05,
      "loss": 2.2849,
      "step": 211500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.325648414985591e-05,
      "loss": 2.3166,
      "step": 211600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.325328210054435e-05,
      "loss": 2.2817,
      "step": 211700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.325008005123279e-05,
      "loss": 2.2759,
      "step": 211800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3246878001921234e-05,
      "loss": 2.2937,
      "step": 211900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3243675952609674e-05,
      "loss": 2.2933,
      "step": 212000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.08008074760437,
      "eval_runtime": 99.4447,
      "eval_samples_per_second": 100.558,
      "eval_steps_per_second": 6.285,
      "step": 212000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3240473903298114e-05,
      "loss": 2.2817,
      "step": 212100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.323727185398655e-05,
      "loss": 2.2801,
      "step": 212200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.323406980467499e-05,
      "loss": 2.3068,
      "step": 212300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.323086775536343e-05,
      "loss": 2.2818,
      "step": 212400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.322766570605187e-05,
      "loss": 2.2835,
      "step": 212500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.322446365674032e-05,
      "loss": 2.2691,
      "step": 212600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.322126160742876e-05,
      "loss": 2.2932,
      "step": 212700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.32180595581172e-05,
      "loss": 2.3013,
      "step": 212800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.321485750880564e-05,
      "loss": 2.2826,
      "step": 212900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.321165545949408e-05,
      "loss": 2.2949,
      "step": 213000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.0783135890960693,
      "eval_runtime": 100.2357,
      "eval_samples_per_second": 99.765,
      "eval_steps_per_second": 6.235,
      "step": 213000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.320845341018252e-05,
      "loss": 2.2733,
      "step": 213100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.320525136087096e-05,
      "loss": 2.2798,
      "step": 213200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.32020493115594e-05,
      "loss": 2.2809,
      "step": 213300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.319884726224784e-05,
      "loss": 2.3084,
      "step": 213400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3195645212936283e-05,
      "loss": 2.3054,
      "step": 213500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.319244316362472e-05,
      "loss": 2.271,
      "step": 213600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.318924111431316e-05,
      "loss": 2.3204,
      "step": 213700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.31860390650016e-05,
      "loss": 2.2893,
      "step": 213800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.318283701569004e-05,
      "loss": 2.2814,
      "step": 213900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.317963496637848e-05,
      "loss": 2.3143,
      "step": 214000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.0791075229644775,
      "eval_runtime": 101.8582,
      "eval_samples_per_second": 98.176,
      "eval_steps_per_second": 6.136,
      "step": 214000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.317643291706692e-05,
      "loss": 2.2824,
      "step": 214100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.317323086775537e-05,
      "loss": 2.2625,
      "step": 214200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.317002881844381e-05,
      "loss": 2.2755,
      "step": 214300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.316682676913225e-05,
      "loss": 2.2867,
      "step": 214400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.316362471982069e-05,
      "loss": 2.2822,
      "step": 214500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.316042267050913e-05,
      "loss": 2.2911,
      "step": 214600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.315722062119757e-05,
      "loss": 2.3144,
      "step": 214700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.315401857188601e-05,
      "loss": 2.2864,
      "step": 214800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3150816522574447e-05,
      "loss": 2.2706,
      "step": 214900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.314761447326289e-05,
      "loss": 2.2893,
      "step": 215000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.0777788162231445,
      "eval_runtime": 105.4508,
      "eval_samples_per_second": 94.831,
      "eval_steps_per_second": 5.927,
      "step": 215000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.314441242395133e-05,
      "loss": 2.271,
      "step": 215100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.314121037463977e-05,
      "loss": 2.2946,
      "step": 215200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.313800832532821e-05,
      "loss": 2.2741,
      "step": 215300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.313480627601665e-05,
      "loss": 2.2732,
      "step": 215400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.313160422670509e-05,
      "loss": 2.2897,
      "step": 215500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.312840217739353e-05,
      "loss": 2.2805,
      "step": 215600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.312520012808198e-05,
      "loss": 2.2866,
      "step": 215700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.312199807877042e-05,
      "loss": 2.2921,
      "step": 215800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.311879602945886e-05,
      "loss": 2.2834,
      "step": 215900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.31155939801473e-05,
      "loss": 2.2973,
      "step": 216000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.0778629779815674,
      "eval_runtime": 104.1893,
      "eval_samples_per_second": 95.979,
      "eval_steps_per_second": 5.999,
      "step": 216000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.311239193083574e-05,
      "loss": 2.3024,
      "step": 216100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.310918988152418e-05,
      "loss": 2.2719,
      "step": 216200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3105987832212616e-05,
      "loss": 2.2778,
      "step": 216300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3102785782901056e-05,
      "loss": 2.2815,
      "step": 216400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3099583733589496e-05,
      "loss": 2.2717,
      "step": 216500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.309638168427794e-05,
      "loss": 2.2876,
      "step": 216600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.309317963496638e-05,
      "loss": 2.2956,
      "step": 216700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.308997758565482e-05,
      "loss": 2.2928,
      "step": 216800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.308677553634326e-05,
      "loss": 2.2891,
      "step": 216900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.30835734870317e-05,
      "loss": 2.278,
      "step": 217000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.0791118144989014,
      "eval_runtime": 101.718,
      "eval_samples_per_second": 98.311,
      "eval_steps_per_second": 6.144,
      "step": 217000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.308037143772014e-05,
      "loss": 2.2592,
      "step": 217100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.307716938840858e-05,
      "loss": 2.2734,
      "step": 217200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.307396733909703e-05,
      "loss": 2.2894,
      "step": 217300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.307076528978547e-05,
      "loss": 2.2713,
      "step": 217400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.306756324047391e-05,
      "loss": 2.2904,
      "step": 217500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.306436119116235e-05,
      "loss": 2.3037,
      "step": 217600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3061159141850786e-05,
      "loss": 2.2882,
      "step": 217700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3057957092539226e-05,
      "loss": 2.2778,
      "step": 217800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3054755043227666e-05,
      "loss": 2.2743,
      "step": 217900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.305155299391611e-05,
      "loss": 2.2759,
      "step": 218000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.075376510620117,
      "eval_runtime": 101.8994,
      "eval_samples_per_second": 98.136,
      "eval_steps_per_second": 6.134,
      "step": 218000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3048350944604545e-05,
      "loss": 2.2883,
      "step": 218100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.304514889529299e-05,
      "loss": 2.2884,
      "step": 218200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.304194684598143e-05,
      "loss": 2.2939,
      "step": 218300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.303874479666987e-05,
      "loss": 2.268,
      "step": 218400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.303554274735831e-05,
      "loss": 2.2796,
      "step": 218500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.303234069804675e-05,
      "loss": 2.2933,
      "step": 218600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.302913864873519e-05,
      "loss": 2.2973,
      "step": 218700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.302593659942363e-05,
      "loss": 2.2588,
      "step": 218800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.302273455011208e-05,
      "loss": 2.2677,
      "step": 218900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3019532500800517e-05,
      "loss": 2.2911,
      "step": 219000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.0804283618927,
      "eval_runtime": 104.0451,
      "eval_samples_per_second": 96.112,
      "eval_steps_per_second": 6.007,
      "step": 219000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3016330451488956e-05,
      "loss": 2.2839,
      "step": 219100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3013128402177396e-05,
      "loss": 2.2747,
      "step": 219200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3009926352865836e-05,
      "loss": 2.2847,
      "step": 219300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3006724303554275e-05,
      "loss": 2.2918,
      "step": 219400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.3003522254242715e-05,
      "loss": 2.268,
      "step": 219500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.300032020493116e-05,
      "loss": 2.297,
      "step": 219600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2997118155619595e-05,
      "loss": 2.273,
      "step": 219700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.299391610630804e-05,
      "loss": 2.2668,
      "step": 219800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.299071405699648e-05,
      "loss": 2.2735,
      "step": 219900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.298751200768492e-05,
      "loss": 2.2685,
      "step": 220000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.079213857650757,
      "eval_runtime": 107.6634,
      "eval_samples_per_second": 92.882,
      "eval_steps_per_second": 5.805,
      "step": 220000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.298430995837336e-05,
      "loss": 2.3024,
      "step": 220100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.29811079090618e-05,
      "loss": 2.2713,
      "step": 220200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.297790585975025e-05,
      "loss": 2.2831,
      "step": 220300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.297470381043868e-05,
      "loss": 2.2777,
      "step": 220400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2971501761127126e-05,
      "loss": 2.2966,
      "step": 220500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2968299711815566e-05,
      "loss": 2.2678,
      "step": 220600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2965097662504006e-05,
      "loss": 2.3206,
      "step": 220700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2961895613192445e-05,
      "loss": 2.2843,
      "step": 220800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2958693563880885e-05,
      "loss": 2.286,
      "step": 220900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2955491514569325e-05,
      "loss": 2.2903,
      "step": 221000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.0762317180633545,
      "eval_runtime": 107.7606,
      "eval_samples_per_second": 92.798,
      "eval_steps_per_second": 5.8,
      "step": 221000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2952289465257765e-05,
      "loss": 2.2691,
      "step": 221100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.294908741594621e-05,
      "loss": 2.2994,
      "step": 221200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2945885366634644e-05,
      "loss": 2.2978,
      "step": 221300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.294268331732309e-05,
      "loss": 2.3053,
      "step": 221400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.293948126801153e-05,
      "loss": 2.2601,
      "step": 221500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.293627921869997e-05,
      "loss": 2.2882,
      "step": 221600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.293307716938841e-05,
      "loss": 2.273,
      "step": 221700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.292987512007685e-05,
      "loss": 2.258,
      "step": 221800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2926673070765296e-05,
      "loss": 2.2914,
      "step": 221900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.292347102145373e-05,
      "loss": 2.2965,
      "step": 222000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.0798702239990234,
      "eval_runtime": 103.6819,
      "eval_samples_per_second": 96.449,
      "eval_steps_per_second": 6.028,
      "step": 222000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2920268972142176e-05,
      "loss": 2.2992,
      "step": 222100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2917066922830615e-05,
      "loss": 2.2912,
      "step": 222200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2913864873519055e-05,
      "loss": 2.2766,
      "step": 222300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2910662824207495e-05,
      "loss": 2.2645,
      "step": 222400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2907460774895934e-05,
      "loss": 2.2823,
      "step": 222500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.290425872558438e-05,
      "loss": 2.3039,
      "step": 222600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2901056676272814e-05,
      "loss": 2.2671,
      "step": 222700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.289785462696126e-05,
      "loss": 2.2708,
      "step": 222800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2894652577649693e-05,
      "loss": 2.2521,
      "step": 222900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.289145052833814e-05,
      "loss": 2.261,
      "step": 223000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.076125383377075,
      "eval_runtime": 101.7458,
      "eval_samples_per_second": 98.284,
      "eval_steps_per_second": 6.143,
      "step": 223000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.288824847902658e-05,
      "loss": 2.2723,
      "step": 223100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.288504642971502e-05,
      "loss": 2.2708,
      "step": 223200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.288184438040346e-05,
      "loss": 2.2864,
      "step": 223300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.28786423310919e-05,
      "loss": 2.2691,
      "step": 223400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2875440281780345e-05,
      "loss": 2.3131,
      "step": 223500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.287223823246878e-05,
      "loss": 2.2702,
      "step": 223600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2869036183157225e-05,
      "loss": 2.2804,
      "step": 223700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2865834133845665e-05,
      "loss": 2.2824,
      "step": 223800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2862632084534104e-05,
      "loss": 2.2992,
      "step": 223900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2859430035222544e-05,
      "loss": 2.2689,
      "step": 224000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.078415632247925,
      "eval_runtime": 103.624,
      "eval_samples_per_second": 96.503,
      "eval_steps_per_second": 6.031,
      "step": 224000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2856227985910984e-05,
      "loss": 2.2506,
      "step": 224100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.285302593659943e-05,
      "loss": 2.2681,
      "step": 224200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.284982388728786e-05,
      "loss": 2.2786,
      "step": 224300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.284662183797631e-05,
      "loss": 2.2616,
      "step": 224400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.284341978866474e-05,
      "loss": 2.268,
      "step": 224500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.284021773935319e-05,
      "loss": 2.2666,
      "step": 224600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.283701569004163e-05,
      "loss": 2.2586,
      "step": 224700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.283381364073007e-05,
      "loss": 2.2622,
      "step": 224800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2830611591418515e-05,
      "loss": 2.2725,
      "step": 224900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.282740954210695e-05,
      "loss": 2.3019,
      "step": 225000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.070456027984619,
      "eval_runtime": 99.8202,
      "eval_samples_per_second": 100.18,
      "eval_steps_per_second": 6.261,
      "step": 225000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2824207492795395e-05,
      "loss": 2.2717,
      "step": 225100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.282100544348383e-05,
      "loss": 2.289,
      "step": 225200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2817803394172274e-05,
      "loss": 2.301,
      "step": 225300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2814601344860714e-05,
      "loss": 2.2676,
      "step": 225400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2811399295549154e-05,
      "loss": 2.2963,
      "step": 225500
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2808197246237594e-05,
      "loss": 2.2866,
      "step": 225600
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.280499519692603e-05,
      "loss": 2.2708,
      "step": 225700
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.280179314761448e-05,
      "loss": 2.2789,
      "step": 225800
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.279859109830291e-05,
      "loss": 2.26,
      "step": 225900
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.279538904899136e-05,
      "loss": 2.2746,
      "step": 226000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.0762643814086914,
      "eval_runtime": 100.0164,
      "eval_samples_per_second": 99.984,
      "eval_steps_per_second": 6.249,
      "step": 226000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.279218699967979e-05,
      "loss": 2.2675,
      "step": 226100
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.278898495036824e-05,
      "loss": 2.2792,
      "step": 226200
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.278578290105668e-05,
      "loss": 2.2688,
      "step": 226300
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.278258085174512e-05,
      "loss": 2.2987,
      "step": 226400
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.2779378802433565e-05,
      "loss": 2.2888,
      "step": 226500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2776176753122e-05,
      "loss": 2.2763,
      "step": 226600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2772974703810444e-05,
      "loss": 2.2585,
      "step": 226700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.276977265449888e-05,
      "loss": 2.2873,
      "step": 226800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2766570605187324e-05,
      "loss": 2.308,
      "step": 226900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2763368555875763e-05,
      "loss": 2.2561,
      "step": 227000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.0767838954925537,
      "eval_runtime": 97.3451,
      "eval_samples_per_second": 102.727,
      "eval_steps_per_second": 6.42,
      "step": 227000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.27601665065642e-05,
      "loss": 2.2739,
      "step": 227100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.275696445725264e-05,
      "loss": 2.2846,
      "step": 227200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.275376240794108e-05,
      "loss": 2.2555,
      "step": 227300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.275056035862953e-05,
      "loss": 2.2881,
      "step": 227400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.274735830931796e-05,
      "loss": 2.2818,
      "step": 227500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.274415626000641e-05,
      "loss": 2.3003,
      "step": 227600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.274095421069484e-05,
      "loss": 2.2662,
      "step": 227700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.273775216138329e-05,
      "loss": 2.2782,
      "step": 227800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.273455011207173e-05,
      "loss": 2.2813,
      "step": 227900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.273134806276017e-05,
      "loss": 2.2694,
      "step": 228000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.0689377784729004,
      "eval_runtime": 100.4062,
      "eval_samples_per_second": 99.595,
      "eval_steps_per_second": 6.225,
      "step": 228000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2728146013448614e-05,
      "loss": 2.2554,
      "step": 228100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.272494396413705e-05,
      "loss": 2.2706,
      "step": 228200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2721741914825494e-05,
      "loss": 2.2615,
      "step": 228300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2718539865513927e-05,
      "loss": 2.299,
      "step": 228400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.271533781620237e-05,
      "loss": 2.2809,
      "step": 228500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.271213576689081e-05,
      "loss": 2.2768,
      "step": 228600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.270893371757925e-05,
      "loss": 2.2666,
      "step": 228700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.270573166826769e-05,
      "loss": 2.2838,
      "step": 228800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.270252961895613e-05,
      "loss": 2.2811,
      "step": 228900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.269932756964458e-05,
      "loss": 2.2425,
      "step": 229000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.0724594593048096,
      "eval_runtime": 102.1916,
      "eval_samples_per_second": 97.855,
      "eval_steps_per_second": 6.116,
      "step": 229000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.269612552033301e-05,
      "loss": 2.2404,
      "step": 229100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.269292347102146e-05,
      "loss": 2.2638,
      "step": 229200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.268972142170989e-05,
      "loss": 2.2755,
      "step": 229300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.268651937239834e-05,
      "loss": 2.2957,
      "step": 229400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.268331732308678e-05,
      "loss": 2.2749,
      "step": 229500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.268011527377522e-05,
      "loss": 2.2905,
      "step": 229600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2676913224463663e-05,
      "loss": 2.2942,
      "step": 229700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2673711175152096e-05,
      "loss": 2.289,
      "step": 229800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.267050912584054e-05,
      "loss": 2.2686,
      "step": 229900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2667307076528976e-05,
      "loss": 2.2686,
      "step": 230000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.0704665184020996,
      "eval_runtime": 102.8872,
      "eval_samples_per_second": 97.194,
      "eval_steps_per_second": 6.075,
      "step": 230000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.266410502721742e-05,
      "loss": 2.2869,
      "step": 230100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.266090297790586e-05,
      "loss": 2.2938,
      "step": 230200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.26577009285943e-05,
      "loss": 2.2712,
      "step": 230300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.265449887928274e-05,
      "loss": 2.2646,
      "step": 230400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.265129682997118e-05,
      "loss": 2.2549,
      "step": 230500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.264809478065963e-05,
      "loss": 2.2731,
      "step": 230600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.264489273134806e-05,
      "loss": 2.2622,
      "step": 230700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.264169068203651e-05,
      "loss": 2.2609,
      "step": 230800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.263848863272494e-05,
      "loss": 2.2833,
      "step": 230900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.263528658341339e-05,
      "loss": 2.2544,
      "step": 231000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.0667498111724854,
      "eval_runtime": 98.1184,
      "eval_samples_per_second": 101.918,
      "eval_steps_per_second": 6.37,
      "step": 231000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2632084534101827e-05,
      "loss": 2.2527,
      "step": 231100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2628882484790266e-05,
      "loss": 2.2728,
      "step": 231200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.262568043547871e-05,
      "loss": 2.2737,
      "step": 231300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2622478386167146e-05,
      "loss": 2.2876,
      "step": 231400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.261927633685559e-05,
      "loss": 2.2738,
      "step": 231500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2616074287544025e-05,
      "loss": 2.2981,
      "step": 231600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.261287223823247e-05,
      "loss": 2.2594,
      "step": 231700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.260967018892091e-05,
      "loss": 2.2756,
      "step": 231800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.260646813960935e-05,
      "loss": 2.2886,
      "step": 231900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.260326609029779e-05,
      "loss": 2.267,
      "step": 232000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.069913148880005,
      "eval_runtime": 98.2814,
      "eval_samples_per_second": 101.749,
      "eval_steps_per_second": 6.359,
      "step": 232000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.260006404098623e-05,
      "loss": 2.2581,
      "step": 232100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.259686199167468e-05,
      "loss": 2.2539,
      "step": 232200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.259365994236311e-05,
      "loss": 2.2597,
      "step": 232300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.259045789305156e-05,
      "loss": 2.2671,
      "step": 232400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2587255843739996e-05,
      "loss": 2.2786,
      "step": 232500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2584053794428436e-05,
      "loss": 2.2796,
      "step": 232600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2580851745116876e-05,
      "loss": 2.2713,
      "step": 232700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2577649695805316e-05,
      "loss": 2.2768,
      "step": 232800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.257444764649376e-05,
      "loss": 2.2728,
      "step": 232900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2571245597182195e-05,
      "loss": 2.2789,
      "step": 233000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.0708703994750977,
      "eval_runtime": 100.761,
      "eval_samples_per_second": 99.245,
      "eval_steps_per_second": 6.203,
      "step": 233000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.256804354787064e-05,
      "loss": 2.2772,
      "step": 233100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2564841498559075e-05,
      "loss": 2.2668,
      "step": 233200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.256163944924752e-05,
      "loss": 2.2674,
      "step": 233300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.255843739993596e-05,
      "loss": 2.2573,
      "step": 233400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.25552353506244e-05,
      "loss": 2.3058,
      "step": 233500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.255203330131284e-05,
      "loss": 2.2577,
      "step": 233600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.254883125200128e-05,
      "loss": 2.2859,
      "step": 233700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.254562920268973e-05,
      "loss": 2.2563,
      "step": 233800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.254242715337816e-05,
      "loss": 2.2535,
      "step": 233900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2539225104066606e-05,
      "loss": 2.2727,
      "step": 234000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.0697343349456787,
      "eval_runtime": 101.1185,
      "eval_samples_per_second": 98.894,
      "eval_steps_per_second": 6.181,
      "step": 234000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2536023054755046e-05,
      "loss": 2.2655,
      "step": 234100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2532821005443486e-05,
      "loss": 2.2704,
      "step": 234200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2529618956131925e-05,
      "loss": 2.2603,
      "step": 234300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2526416906820365e-05,
      "loss": 2.2399,
      "step": 234400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.252321485750881e-05,
      "loss": 2.2409,
      "step": 234500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2520012808197245e-05,
      "loss": 2.2791,
      "step": 234600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.251681075888569e-05,
      "loss": 2.2602,
      "step": 234700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.251360870957413e-05,
      "loss": 2.2697,
      "step": 234800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.251040666026257e-05,
      "loss": 2.2797,
      "step": 234900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.250720461095101e-05,
      "loss": 2.265,
      "step": 235000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.0671558380126953,
      "eval_runtime": 97.3055,
      "eval_samples_per_second": 102.769,
      "eval_steps_per_second": 6.423,
      "step": 235000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.250400256163945e-05,
      "loss": 2.2618,
      "step": 235100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.250080051232789e-05,
      "loss": 2.2579,
      "step": 235200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.249759846301633e-05,
      "loss": 2.2691,
      "step": 235300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2494396413704776e-05,
      "loss": 2.273,
      "step": 235400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2491194364393216e-05,
      "loss": 2.3018,
      "step": 235500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2487992315081655e-05,
      "loss": 2.2742,
      "step": 235600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2484790265770095e-05,
      "loss": 2.2682,
      "step": 235700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2481588216458535e-05,
      "loss": 2.2644,
      "step": 235800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2478386167146975e-05,
      "loss": 2.28,
      "step": 235900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2475184117835414e-05,
      "loss": 2.2875,
      "step": 236000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.0717976093292236,
      "eval_runtime": 97.3109,
      "eval_samples_per_second": 102.763,
      "eval_steps_per_second": 6.423,
      "step": 236000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.247198206852386e-05,
      "loss": 2.2731,
      "step": 236100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2468780019212294e-05,
      "loss": 2.2525,
      "step": 236200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.246557796990074e-05,
      "loss": 2.2942,
      "step": 236300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.246237592058918e-05,
      "loss": 2.2893,
      "step": 236400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.245917387127762e-05,
      "loss": 2.2937,
      "step": 236500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.245597182196606e-05,
      "loss": 2.2746,
      "step": 236600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.24527697726545e-05,
      "loss": 2.2843,
      "step": 236700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.244956772334294e-05,
      "loss": 2.2603,
      "step": 236800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.244636567403138e-05,
      "loss": 2.2806,
      "step": 236900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2443163624719825e-05,
      "loss": 2.2724,
      "step": 237000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.068460464477539,
      "eval_runtime": 97.1325,
      "eval_samples_per_second": 102.952,
      "eval_steps_per_second": 6.435,
      "step": 237000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2439961575408265e-05,
      "loss": 2.2827,
      "step": 237100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2436759526096705e-05,
      "loss": 2.2667,
      "step": 237200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2433557476785145e-05,
      "loss": 2.2733,
      "step": 237300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2430355427473584e-05,
      "loss": 2.233,
      "step": 237400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2427153378162024e-05,
      "loss": 2.2689,
      "step": 237500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2423951328850464e-05,
      "loss": 2.2655,
      "step": 237600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.242074927953891e-05,
      "loss": 2.2519,
      "step": 237700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.241754723022735e-05,
      "loss": 2.288,
      "step": 237800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.241434518091579e-05,
      "loss": 2.2746,
      "step": 237900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.241114313160423e-05,
      "loss": 2.284,
      "step": 238000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.0680205821990967,
      "eval_runtime": 99.0151,
      "eval_samples_per_second": 100.995,
      "eval_steps_per_second": 6.312,
      "step": 238000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.240794108229267e-05,
      "loss": 2.229,
      "step": 238100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.240473903298111e-05,
      "loss": 2.2519,
      "step": 238200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.240153698366955e-05,
      "loss": 2.2698,
      "step": 238300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.239833493435799e-05,
      "loss": 2.2511,
      "step": 238400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.239513288504643e-05,
      "loss": 2.2549,
      "step": 238500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2391930835734875e-05,
      "loss": 2.2593,
      "step": 238600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2388728786423314e-05,
      "loss": 2.2609,
      "step": 238700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2385526737111754e-05,
      "loss": 2.2627,
      "step": 238800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2382324687800194e-05,
      "loss": 2.2846,
      "step": 238900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2379122638488634e-05,
      "loss": 2.2367,
      "step": 239000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.0692636966705322,
      "eval_runtime": 98.7994,
      "eval_samples_per_second": 101.215,
      "eval_steps_per_second": 6.326,
      "step": 239000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2375920589177073e-05,
      "loss": 2.2445,
      "step": 239100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.237271853986551e-05,
      "loss": 2.2602,
      "step": 239200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.236951649055396e-05,
      "loss": 2.2626,
      "step": 239300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.23663144412424e-05,
      "loss": 2.2876,
      "step": 239400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.236311239193084e-05,
      "loss": 2.2479,
      "step": 239500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.235991034261928e-05,
      "loss": 2.2813,
      "step": 239600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.235670829330772e-05,
      "loss": 2.2661,
      "step": 239700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.235350624399616e-05,
      "loss": 2.2513,
      "step": 239800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.23503041946846e-05,
      "loss": 2.2402,
      "step": 239900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.234710214537304e-05,
      "loss": 2.2559,
      "step": 240000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.069582939147949,
      "eval_runtime": 101.5914,
      "eval_samples_per_second": 98.434,
      "eval_steps_per_second": 6.152,
      "step": 240000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2343900096061484e-05,
      "loss": 2.2684,
      "step": 240100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2340698046749924e-05,
      "loss": 2.2643,
      "step": 240200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2337495997438364e-05,
      "loss": 2.2356,
      "step": 240300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2334293948126804e-05,
      "loss": 2.2661,
      "step": 240400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.233109189881524e-05,
      "loss": 2.2926,
      "step": 240500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.232788984950368e-05,
      "loss": 2.26,
      "step": 240600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.232468780019212e-05,
      "loss": 2.2763,
      "step": 240700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.232148575088056e-05,
      "loss": 2.2845,
      "step": 240800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.231828370156901e-05,
      "loss": 2.2588,
      "step": 240900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.231508165225745e-05,
      "loss": 2.2578,
      "step": 241000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.0667784214019775,
      "eval_runtime": 100.391,
      "eval_samples_per_second": 99.61,
      "eval_steps_per_second": 6.226,
      "step": 241000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.231187960294589e-05,
      "loss": 2.2759,
      "step": 241100
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.230867755363433e-05,
      "loss": 2.2595,
      "step": 241200
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.230547550432277e-05,
      "loss": 2.2639,
      "step": 241300
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.230227345501121e-05,
      "loss": 2.2724,
      "step": 241400
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.229907140569965e-05,
      "loss": 2.2684,
      "step": 241500
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.229586935638809e-05,
      "loss": 2.2581,
      "step": 241600
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2292667307076534e-05,
      "loss": 2.2657,
      "step": 241700
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.2289465257764973e-05,
      "loss": 2.2524,
      "step": 241800
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.228626320845341e-05,
      "loss": 2.2834,
      "step": 241900
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.228306115914185e-05,
      "loss": 2.2643,
      "step": 242000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.0646326541900635,
      "eval_runtime": 100.7146,
      "eval_samples_per_second": 99.291,
      "eval_steps_per_second": 6.206,
      "step": 242000
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.227985910983029e-05,
      "loss": 2.2583,
      "step": 242100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.227665706051873e-05,
      "loss": 2.2637,
      "step": 242200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.227345501120717e-05,
      "loss": 2.272,
      "step": 242300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.227025296189562e-05,
      "loss": 2.2694,
      "step": 242400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.226705091258406e-05,
      "loss": 2.2393,
      "step": 242500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.22638488632725e-05,
      "loss": 2.2702,
      "step": 242600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.226064681396094e-05,
      "loss": 2.2532,
      "step": 242700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.225744476464938e-05,
      "loss": 2.2646,
      "step": 242800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.225424271533782e-05,
      "loss": 2.2596,
      "step": 242900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.225104066602626e-05,
      "loss": 2.2749,
      "step": 243000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.064330816268921,
      "eval_runtime": 98.1463,
      "eval_samples_per_second": 101.889,
      "eval_steps_per_second": 6.368,
      "step": 243000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.22478386167147e-05,
      "loss": 2.2544,
      "step": 243100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2244636567403137e-05,
      "loss": 2.2556,
      "step": 243200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.224143451809158e-05,
      "loss": 2.2626,
      "step": 243300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.223823246878002e-05,
      "loss": 2.2592,
      "step": 243400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.223503041946846e-05,
      "loss": 2.2737,
      "step": 243500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.22318283701569e-05,
      "loss": 2.2554,
      "step": 243600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.222862632084534e-05,
      "loss": 2.2721,
      "step": 243700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.222542427153378e-05,
      "loss": 2.2661,
      "step": 243800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.222222222222222e-05,
      "loss": 2.2804,
      "step": 243900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.221902017291067e-05,
      "loss": 2.2486,
      "step": 244000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.0675137042999268,
      "eval_runtime": 97.8894,
      "eval_samples_per_second": 102.156,
      "eval_steps_per_second": 6.385,
      "step": 244000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.221581812359911e-05,
      "loss": 2.2616,
      "step": 244100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.221261607428755e-05,
      "loss": 2.2613,
      "step": 244200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.220941402497599e-05,
      "loss": 2.2578,
      "step": 244300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.220621197566443e-05,
      "loss": 2.2819,
      "step": 244400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.220300992635287e-05,
      "loss": 2.2558,
      "step": 244500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2199807877041306e-05,
      "loss": 2.268,
      "step": 244600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.219660582772975e-05,
      "loss": 2.2602,
      "step": 244700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2193403778418186e-05,
      "loss": 2.2992,
      "step": 244800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.219020172910663e-05,
      "loss": 2.2783,
      "step": 244900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.218699967979507e-05,
      "loss": 2.2959,
      "step": 245000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.0626060962677,
      "eval_runtime": 98.0583,
      "eval_samples_per_second": 101.98,
      "eval_steps_per_second": 6.374,
      "step": 245000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.218379763048351e-05,
      "loss": 2.2558,
      "step": 245100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.218059558117195e-05,
      "loss": 2.2611,
      "step": 245200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.217739353186039e-05,
      "loss": 2.2408,
      "step": 245300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.217419148254884e-05,
      "loss": 2.2736,
      "step": 245400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.217098943323727e-05,
      "loss": 2.2577,
      "step": 245500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.216778738392572e-05,
      "loss": 2.2701,
      "step": 245600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.216458533461416e-05,
      "loss": 2.2588,
      "step": 245700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.21613832853026e-05,
      "loss": 2.2798,
      "step": 245800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.215818123599104e-05,
      "loss": 2.2568,
      "step": 245900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2154979186679476e-05,
      "loss": 2.2553,
      "step": 246000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.0632641315460205,
      "eval_runtime": 99.1144,
      "eval_samples_per_second": 100.893,
      "eval_steps_per_second": 6.306,
      "step": 246000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2151777137367916e-05,
      "loss": 2.2567,
      "step": 246100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2148575088056356e-05,
      "loss": 2.2413,
      "step": 246200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.21453730387448e-05,
      "loss": 2.2369,
      "step": 246300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2142170989433235e-05,
      "loss": 2.2596,
      "step": 246400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.213896894012168e-05,
      "loss": 2.2491,
      "step": 246500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.213576689081012e-05,
      "loss": 2.2337,
      "step": 246600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.213256484149856e-05,
      "loss": 2.2288,
      "step": 246700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2129362792187e-05,
      "loss": 2.2896,
      "step": 246800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.212616074287544e-05,
      "loss": 2.2626,
      "step": 246900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.212295869356389e-05,
      "loss": 2.271,
      "step": 247000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.0639004707336426,
      "eval_runtime": 99.8631,
      "eval_samples_per_second": 100.137,
      "eval_steps_per_second": 6.259,
      "step": 247000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.211975664425232e-05,
      "loss": 2.2603,
      "step": 247100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.211655459494077e-05,
      "loss": 2.2423,
      "step": 247200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2113352545629207e-05,
      "loss": 2.246,
      "step": 247300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2110150496317646e-05,
      "loss": 2.2566,
      "step": 247400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2106948447006086e-05,
      "loss": 2.2615,
      "step": 247500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2103746397694526e-05,
      "loss": 2.2696,
      "step": 247600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.210054434838297e-05,
      "loss": 2.2586,
      "step": 247700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2097342299071405e-05,
      "loss": 2.2511,
      "step": 247800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.209414024975985e-05,
      "loss": 2.2588,
      "step": 247900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2090938200448285e-05,
      "loss": 2.2535,
      "step": 248000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.0656516551971436,
      "eval_runtime": 98.6986,
      "eval_samples_per_second": 101.319,
      "eval_steps_per_second": 6.332,
      "step": 248000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.208773615113673e-05,
      "loss": 2.2483,
      "step": 248100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.208453410182517e-05,
      "loss": 2.2536,
      "step": 248200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.208133205251361e-05,
      "loss": 2.2347,
      "step": 248300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.207813000320205e-05,
      "loss": 2.2237,
      "step": 248400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.207492795389049e-05,
      "loss": 2.271,
      "step": 248500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.207172590457894e-05,
      "loss": 2.2787,
      "step": 248600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.206852385526737e-05,
      "loss": 2.2736,
      "step": 248700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2065321805955816e-05,
      "loss": 2.2648,
      "step": 248800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2062119756644256e-05,
      "loss": 2.2466,
      "step": 248900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2058917707332696e-05,
      "loss": 2.2287,
      "step": 249000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.0628585815429688,
      "eval_runtime": 99.3008,
      "eval_samples_per_second": 100.704,
      "eval_steps_per_second": 6.294,
      "step": 249000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2055715658021135e-05,
      "loss": 2.2548,
      "step": 249100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2052513608709575e-05,
      "loss": 2.2779,
      "step": 249200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.204931155939802e-05,
      "loss": 2.2623,
      "step": 249300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2046109510086455e-05,
      "loss": 2.2423,
      "step": 249400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.20429074607749e-05,
      "loss": 2.2497,
      "step": 249500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2039705411463334e-05,
      "loss": 2.2506,
      "step": 249600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.203650336215178e-05,
      "loss": 2.2578,
      "step": 249700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.203330131284022e-05,
      "loss": 2.2518,
      "step": 249800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.203009926352866e-05,
      "loss": 2.2605,
      "step": 249900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2026897214217107e-05,
      "loss": 2.2961,
      "step": 250000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.0625851154327393,
      "eval_runtime": 97.6537,
      "eval_samples_per_second": 102.403,
      "eval_steps_per_second": 6.4,
      "step": 250000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.202369516490554e-05,
      "loss": 2.2919,
      "step": 250100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2020493115593986e-05,
      "loss": 2.2418,
      "step": 250200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.201729106628242e-05,
      "loss": 2.2557,
      "step": 250300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2014089016970866e-05,
      "loss": 2.2663,
      "step": 250400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2010886967659305e-05,
      "loss": 2.2764,
      "step": 250500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2007684918347745e-05,
      "loss": 2.2623,
      "step": 250600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2004482869036185e-05,
      "loss": 2.2504,
      "step": 250700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.2001280819724624e-05,
      "loss": 2.2578,
      "step": 250800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.199807877041307e-05,
      "loss": 2.2699,
      "step": 250900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1994876721101504e-05,
      "loss": 2.2647,
      "step": 251000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.0603301525115967,
      "eval_runtime": 98.9834,
      "eval_samples_per_second": 101.027,
      "eval_steps_per_second": 6.314,
      "step": 251000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.199167467178995e-05,
      "loss": 2.2801,
      "step": 251100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1988472622478383e-05,
      "loss": 2.2684,
      "step": 251200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.198527057316683e-05,
      "loss": 2.2754,
      "step": 251300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.198206852385527e-05,
      "loss": 2.2417,
      "step": 251400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.197886647454371e-05,
      "loss": 2.2634,
      "step": 251500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1975664425232156e-05,
      "loss": 2.2683,
      "step": 251600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.197246237592059e-05,
      "loss": 2.2493,
      "step": 251700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1969260326609035e-05,
      "loss": 2.235,
      "step": 251800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.196605827729747e-05,
      "loss": 2.2558,
      "step": 251900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1962856227985915e-05,
      "loss": 2.2738,
      "step": 252000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.0627284049987793,
      "eval_runtime": 101.7066,
      "eval_samples_per_second": 98.322,
      "eval_steps_per_second": 6.145,
      "step": 252000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1959654178674355e-05,
      "loss": 2.2622,
      "step": 252100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1956452129362794e-05,
      "loss": 2.2761,
      "step": 252200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1953250080051234e-05,
      "loss": 2.2393,
      "step": 252300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1950048030739674e-05,
      "loss": 2.2394,
      "step": 252400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.194684598142812e-05,
      "loss": 2.2645,
      "step": 252500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.194364393211655e-05,
      "loss": 2.2562,
      "step": 252600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1940441882805e-05,
      "loss": 2.2762,
      "step": 252700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.193723983349343e-05,
      "loss": 2.2557,
      "step": 252800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.193403778418188e-05,
      "loss": 2.2606,
      "step": 252900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.193083573487032e-05,
      "loss": 2.2524,
      "step": 253000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.0591626167297363,
      "eval_runtime": 99.9076,
      "eval_samples_per_second": 100.093,
      "eval_steps_per_second": 6.256,
      "step": 253000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.192763368555876e-05,
      "loss": 2.2268,
      "step": 253100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1924431636247205e-05,
      "loss": 2.2466,
      "step": 253200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.192122958693564e-05,
      "loss": 2.2647,
      "step": 253300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1918027537624085e-05,
      "loss": 2.2777,
      "step": 253400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.191482548831252e-05,
      "loss": 2.2734,
      "step": 253500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1911623439000964e-05,
      "loss": 2.2378,
      "step": 253600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1908421389689404e-05,
      "loss": 2.2405,
      "step": 253700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1905219340377844e-05,
      "loss": 2.2387,
      "step": 253800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1902017291066283e-05,
      "loss": 2.2395,
      "step": 253900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.189881524175472e-05,
      "loss": 2.2722,
      "step": 254000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.0588788986206055,
      "eval_runtime": 99.8571,
      "eval_samples_per_second": 100.143,
      "eval_steps_per_second": 6.259,
      "step": 254000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.189561319244317e-05,
      "loss": 2.2503,
      "step": 254100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.18924111431316e-05,
      "loss": 2.2549,
      "step": 254200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.188920909382005e-05,
      "loss": 2.2601,
      "step": 254300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.188600704450848e-05,
      "loss": 2.2621,
      "step": 254400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.188280499519693e-05,
      "loss": 2.2368,
      "step": 254500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.187960294588537e-05,
      "loss": 2.2673,
      "step": 254600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.187640089657381e-05,
      "loss": 2.2577,
      "step": 254700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1873198847262255e-05,
      "loss": 2.2541,
      "step": 254800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.186999679795069e-05,
      "loss": 2.2548,
      "step": 254900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1866794748639134e-05,
      "loss": 2.2621,
      "step": 255000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.058790445327759,
      "eval_runtime": 106.069,
      "eval_samples_per_second": 94.278,
      "eval_steps_per_second": 5.892,
      "step": 255000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.186359269932757e-05,
      "loss": 2.263,
      "step": 255100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1860390650016014e-05,
      "loss": 2.2671,
      "step": 255200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1857188600704453e-05,
      "loss": 2.2486,
      "step": 255300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.185398655139289e-05,
      "loss": 2.2452,
      "step": 255400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.185078450208133e-05,
      "loss": 2.2443,
      "step": 255500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.184758245276977e-05,
      "loss": 2.2404,
      "step": 255600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.184438040345822e-05,
      "loss": 2.2566,
      "step": 255700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.184117835414665e-05,
      "loss": 2.2722,
      "step": 255800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.18379763048351e-05,
      "loss": 2.282,
      "step": 255900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.183477425552353e-05,
      "loss": 2.2578,
      "step": 256000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.0604746341705322,
      "eval_runtime": 101.6583,
      "eval_samples_per_second": 98.369,
      "eval_steps_per_second": 6.148,
      "step": 256000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.183157220621198e-05,
      "loss": 2.2682,
      "step": 256100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.182837015690042e-05,
      "loss": 2.2627,
      "step": 256200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.182516810758886e-05,
      "loss": 2.2542,
      "step": 256300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1821966058277304e-05,
      "loss": 2.2557,
      "step": 256400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.181876400896574e-05,
      "loss": 2.2547,
      "step": 256500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1815561959654184e-05,
      "loss": 2.2566,
      "step": 256600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.1812359910342617e-05,
      "loss": 2.2499,
      "step": 256700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.180915786103106e-05,
      "loss": 2.2907,
      "step": 256800
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.18059558117195e-05,
      "loss": 2.2654,
      "step": 256900
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.180275376240794e-05,
      "loss": 2.2616,
      "step": 257000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.056342601776123,
      "eval_runtime": 103.4326,
      "eval_samples_per_second": 96.681,
      "eval_steps_per_second": 6.043,
      "step": 257000
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.179955171309638e-05,
      "loss": 2.2375,
      "step": 257100
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.179634966378482e-05,
      "loss": 2.2276,
      "step": 257200
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.179314761447327e-05,
      "loss": 2.2566,
      "step": 257300
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.17899455651617e-05,
      "loss": 2.2468,
      "step": 257400
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.178674351585015e-05,
      "loss": 2.2575,
      "step": 257500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.178354146653859e-05,
      "loss": 2.2317,
      "step": 257600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.178033941722703e-05,
      "loss": 2.2459,
      "step": 257700
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.177713736791547e-05,
      "loss": 2.2568,
      "step": 257800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.177393531860391e-05,
      "loss": 2.2698,
      "step": 257900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1770733269292353e-05,
      "loss": 2.2795,
      "step": 258000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.0577032566070557,
      "eval_runtime": 102.943,
      "eval_samples_per_second": 97.141,
      "eval_steps_per_second": 6.071,
      "step": 258000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1767531219980786e-05,
      "loss": 2.2442,
      "step": 258100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.176432917066923e-05,
      "loss": 2.2492,
      "step": 258200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1761127121357666e-05,
      "loss": 2.2438,
      "step": 258300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.175792507204611e-05,
      "loss": 2.2607,
      "step": 258400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.175472302273455e-05,
      "loss": 2.2431,
      "step": 258500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.175152097342299e-05,
      "loss": 2.2433,
      "step": 258600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.174831892411143e-05,
      "loss": 2.2414,
      "step": 258700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.174511687479987e-05,
      "loss": 2.2505,
      "step": 258800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.174191482548832e-05,
      "loss": 2.268,
      "step": 258900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.173871277617675e-05,
      "loss": 2.265,
      "step": 259000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.059251546859741,
      "eval_runtime": 105.2813,
      "eval_samples_per_second": 94.984,
      "eval_steps_per_second": 5.936,
      "step": 259000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.17355107268652e-05,
      "loss": 2.2678,
      "step": 259100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.173230867755364e-05,
      "loss": 2.2483,
      "step": 259200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.172910662824208e-05,
      "loss": 2.2466,
      "step": 259300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1725904578930517e-05,
      "loss": 2.2573,
      "step": 259400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1722702529618956e-05,
      "loss": 2.2556,
      "step": 259500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.17195004803074e-05,
      "loss": 2.2593,
      "step": 259600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1716298430995836e-05,
      "loss": 2.2497,
      "step": 259700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.171309638168428e-05,
      "loss": 2.2538,
      "step": 259800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.170989433237272e-05,
      "loss": 2.2359,
      "step": 259900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.170669228306116e-05,
      "loss": 2.2421,
      "step": 260000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.054410696029663,
      "eval_runtime": 108.0363,
      "eval_samples_per_second": 92.562,
      "eval_steps_per_second": 5.785,
      "step": 260000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.17034902337496e-05,
      "loss": 2.2458,
      "step": 260100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.170028818443804e-05,
      "loss": 2.2578,
      "step": 260200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.169708613512648e-05,
      "loss": 2.2399,
      "step": 260300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.169388408581492e-05,
      "loss": 2.2416,
      "step": 260400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.169068203650337e-05,
      "loss": 2.2622,
      "step": 260500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.16874799871918e-05,
      "loss": 2.2422,
      "step": 260600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.168427793788025e-05,
      "loss": 2.2316,
      "step": 260700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1681075888568686e-05,
      "loss": 2.2182,
      "step": 260800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1677873839257126e-05,
      "loss": 2.2504,
      "step": 260900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1674671789945566e-05,
      "loss": 2.2346,
      "step": 261000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.0605695247650146,
      "eval_runtime": 111.0358,
      "eval_samples_per_second": 90.061,
      "eval_steps_per_second": 5.629,
      "step": 261000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1671469740634006e-05,
      "loss": 2.2512,
      "step": 261100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.166826769132245e-05,
      "loss": 2.2688,
      "step": 261200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1665065642010885e-05,
      "loss": 2.2591,
      "step": 261300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.166186359269933e-05,
      "loss": 2.2466,
      "step": 261400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.165866154338777e-05,
      "loss": 2.2454,
      "step": 261500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.165545949407621e-05,
      "loss": 2.2543,
      "step": 261600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.165225744476465e-05,
      "loss": 2.2488,
      "step": 261700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.164905539545309e-05,
      "loss": 2.2335,
      "step": 261800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.164585334614153e-05,
      "loss": 2.2361,
      "step": 261900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.164265129682997e-05,
      "loss": 2.2353,
      "step": 262000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.0557124614715576,
      "eval_runtime": 101.3616,
      "eval_samples_per_second": 98.657,
      "eval_steps_per_second": 6.166,
      "step": 262000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1639449247518417e-05,
      "loss": 2.2578,
      "step": 262100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1636247198206856e-05,
      "loss": 2.25,
      "step": 262200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1633045148895296e-05,
      "loss": 2.2399,
      "step": 262300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1629843099583736e-05,
      "loss": 2.2372,
      "step": 262400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1626641050272176e-05,
      "loss": 2.2371,
      "step": 262500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1623439000960615e-05,
      "loss": 2.2741,
      "step": 262600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1620236951649055e-05,
      "loss": 2.2533,
      "step": 262700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.16170349023375e-05,
      "loss": 2.2384,
      "step": 262800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.161383285302594e-05,
      "loss": 2.2472,
      "step": 262900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.161063080371438e-05,
      "loss": 2.2534,
      "step": 263000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.060157060623169,
      "eval_runtime": 101.4567,
      "eval_samples_per_second": 98.564,
      "eval_steps_per_second": 6.16,
      "step": 263000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.160742875440282e-05,
      "loss": 2.23,
      "step": 263100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.160422670509126e-05,
      "loss": 2.2437,
      "step": 263200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.16010246557797e-05,
      "loss": 2.267,
      "step": 263300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.159782260646814e-05,
      "loss": 2.2476,
      "step": 263400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.159462055715658e-05,
      "loss": 2.2585,
      "step": 263500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.159141850784502e-05,
      "loss": 2.2466,
      "step": 263600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1588216458533466e-05,
      "loss": 2.2681,
      "step": 263700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1585014409221906e-05,
      "loss": 2.2351,
      "step": 263800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1581812359910345e-05,
      "loss": 2.2595,
      "step": 263900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1578610310598785e-05,
      "loss": 2.2226,
      "step": 264000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.0552361011505127,
      "eval_runtime": 101.2787,
      "eval_samples_per_second": 98.737,
      "eval_steps_per_second": 6.171,
      "step": 264000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1575408261287225e-05,
      "loss": 2.2456,
      "step": 264100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1572206211975665e-05,
      "loss": 2.247,
      "step": 264200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1569004162664104e-05,
      "loss": 2.2525,
      "step": 264300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.156580211335255e-05,
      "loss": 2.2239,
      "step": 264400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.156260006404099e-05,
      "loss": 2.2643,
      "step": 264500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.155939801472943e-05,
      "loss": 2.2514,
      "step": 264600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.155619596541787e-05,
      "loss": 2.2432,
      "step": 264700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.155299391610631e-05,
      "loss": 2.2202,
      "step": 264800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.154979186679475e-05,
      "loss": 2.2661,
      "step": 264900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.154658981748319e-05,
      "loss": 2.2446,
      "step": 265000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.0562193393707275,
      "eval_runtime": 101.2232,
      "eval_samples_per_second": 98.792,
      "eval_steps_per_second": 6.174,
      "step": 265000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.154338776817163e-05,
      "loss": 2.2781,
      "step": 265100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1540185718860076e-05,
      "loss": 2.2418,
      "step": 265200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1536983669548515e-05,
      "loss": 2.2564,
      "step": 265300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1533781620236955e-05,
      "loss": 2.2606,
      "step": 265400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1530579570925395e-05,
      "loss": 2.2423,
      "step": 265500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1527377521613835e-05,
      "loss": 2.2472,
      "step": 265600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1524175472302274e-05,
      "loss": 2.256,
      "step": 265700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1520973422990714e-05,
      "loss": 2.2465,
      "step": 265800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1517771373679154e-05,
      "loss": 2.2383,
      "step": 265900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.15145693243676e-05,
      "loss": 2.2502,
      "step": 266000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.0587682723999023,
      "eval_runtime": 101.3981,
      "eval_samples_per_second": 98.621,
      "eval_steps_per_second": 6.164,
      "step": 266000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.151136727505604e-05,
      "loss": 2.2056,
      "step": 266100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.150816522574448e-05,
      "loss": 2.2499,
      "step": 266200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.150496317643292e-05,
      "loss": 2.2579,
      "step": 266300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.150176112712136e-05,
      "loss": 2.2238,
      "step": 266400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.14985590778098e-05,
      "loss": 2.2348,
      "step": 266500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.149535702849824e-05,
      "loss": 2.2512,
      "step": 266600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.149215497918668e-05,
      "loss": 2.2665,
      "step": 266700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1488952929875125e-05,
      "loss": 2.2194,
      "step": 266800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1485750880563565e-05,
      "loss": 2.2626,
      "step": 266900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1482548831252004e-05,
      "loss": 2.2647,
      "step": 267000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.053518056869507,
      "eval_runtime": 103.6455,
      "eval_samples_per_second": 96.483,
      "eval_steps_per_second": 6.03,
      "step": 267000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1479346781940444e-05,
      "loss": 2.2726,
      "step": 267100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1476144732628884e-05,
      "loss": 2.2303,
      "step": 267200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1472942683317324e-05,
      "loss": 2.2562,
      "step": 267300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1469740634005763e-05,
      "loss": 2.2491,
      "step": 267400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.146653858469421e-05,
      "loss": 2.2337,
      "step": 267500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.146333653538265e-05,
      "loss": 2.2611,
      "step": 267600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.146013448607109e-05,
      "loss": 2.2284,
      "step": 267700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.145693243675953e-05,
      "loss": 2.2641,
      "step": 267800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.145373038744797e-05,
      "loss": 2.2325,
      "step": 267900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.145052833813641e-05,
      "loss": 2.2197,
      "step": 268000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.0520308017730713,
      "eval_runtime": 105.1007,
      "eval_samples_per_second": 95.147,
      "eval_steps_per_second": 5.947,
      "step": 268000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.144732628882485e-05,
      "loss": 2.2507,
      "step": 268100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.144412423951329e-05,
      "loss": 2.232,
      "step": 268200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.144092219020173e-05,
      "loss": 2.2683,
      "step": 268300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1437720140890174e-05,
      "loss": 2.2411,
      "step": 268400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1434518091578614e-05,
      "loss": 2.2534,
      "step": 268500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1431316042267054e-05,
      "loss": 2.2515,
      "step": 268600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1428113992955494e-05,
      "loss": 2.264,
      "step": 268700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.142491194364393e-05,
      "loss": 2.2385,
      "step": 268800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.142170989433237e-05,
      "loss": 2.2492,
      "step": 268900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.141850784502081e-05,
      "loss": 2.2558,
      "step": 269000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.053779363632202,
      "eval_runtime": 102.8645,
      "eval_samples_per_second": 97.215,
      "eval_steps_per_second": 6.076,
      "step": 269000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.141530579570926e-05,
      "loss": 2.2283,
      "step": 269100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.14121037463977e-05,
      "loss": 2.2373,
      "step": 269200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.140890169708614e-05,
      "loss": 2.2437,
      "step": 269300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.140569964777458e-05,
      "loss": 2.2751,
      "step": 269400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.140249759846302e-05,
      "loss": 2.2428,
      "step": 269500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.139929554915146e-05,
      "loss": 2.256,
      "step": 269600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.13960934998399e-05,
      "loss": 2.2537,
      "step": 269700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1392891450528344e-05,
      "loss": 2.2439,
      "step": 269800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.138968940121678e-05,
      "loss": 2.2462,
      "step": 269900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1386487351905224e-05,
      "loss": 2.2596,
      "step": 270000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.0515940189361572,
      "eval_runtime": 97.2521,
      "eval_samples_per_second": 102.826,
      "eval_steps_per_second": 6.427,
      "step": 270000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1383285302593663e-05,
      "loss": 2.2708,
      "step": 270100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.13800832532821e-05,
      "loss": 2.2311,
      "step": 270200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.137688120397054e-05,
      "loss": 2.2375,
      "step": 270300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.137367915465898e-05,
      "loss": 2.2432,
      "step": 270400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.137047710534742e-05,
      "loss": 2.2398,
      "step": 270500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.136727505603586e-05,
      "loss": 2.2688,
      "step": 270600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.136407300672431e-05,
      "loss": 2.2482,
      "step": 270700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.136087095741275e-05,
      "loss": 2.2602,
      "step": 270800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.135766890810119e-05,
      "loss": 2.2759,
      "step": 270900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.135446685878963e-05,
      "loss": 2.2691,
      "step": 271000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.053588628768921,
      "eval_runtime": 97.1048,
      "eval_samples_per_second": 102.982,
      "eval_steps_per_second": 6.436,
      "step": 271000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.135126480947807e-05,
      "loss": 2.243,
      "step": 271100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.134806276016651e-05,
      "loss": 2.239,
      "step": 271200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.134486071085495e-05,
      "loss": 2.2482,
      "step": 271300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1341658661543394e-05,
      "loss": 2.2294,
      "step": 271400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1338456612231827e-05,
      "loss": 2.2383,
      "step": 271500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.133525456292027e-05,
      "loss": 2.2487,
      "step": 271600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.133205251360871e-05,
      "loss": 2.2399,
      "step": 271700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.132885046429715e-05,
      "loss": 2.2308,
      "step": 271800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.132564841498559e-05,
      "loss": 2.207,
      "step": 271900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.132244636567403e-05,
      "loss": 2.2475,
      "step": 272000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.0533230304718018,
      "eval_runtime": 96.5974,
      "eval_samples_per_second": 103.523,
      "eval_steps_per_second": 6.47,
      "step": 272000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.131924431636248e-05,
      "loss": 2.2561,
      "step": 272100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.131604226705091e-05,
      "loss": 2.2364,
      "step": 272200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.131284021773936e-05,
      "loss": 2.2376,
      "step": 272300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.13096381684278e-05,
      "loss": 2.2713,
      "step": 272400
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.130643611911624e-05,
      "loss": 2.269,
      "step": 272500
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.130323406980468e-05,
      "loss": 2.2385,
      "step": 272600
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.130003202049312e-05,
      "loss": 2.2508,
      "step": 272700
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1296829971181564e-05,
      "loss": 2.2265,
      "step": 272800
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1293627921869996e-05,
      "loss": 2.2255,
      "step": 272900
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.129042587255844e-05,
      "loss": 2.2207,
      "step": 273000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.0546696186065674,
      "eval_runtime": 96.4231,
      "eval_samples_per_second": 103.71,
      "eval_steps_per_second": 6.482,
      "step": 273000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.1287223823246876e-05,
      "loss": 2.2154,
      "step": 273100
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.128402177393532e-05,
      "loss": 2.2127,
      "step": 273200
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.128081972462376e-05,
      "loss": 2.2526,
      "step": 273300
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.12776176753122e-05,
      "loss": 2.2412,
      "step": 273400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.127441562600064e-05,
      "loss": 2.2516,
      "step": 273500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.127121357668908e-05,
      "loss": 2.2538,
      "step": 273600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.126801152737753e-05,
      "loss": 2.275,
      "step": 273700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.126480947806596e-05,
      "loss": 2.2388,
      "step": 273800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.126160742875441e-05,
      "loss": 2.2266,
      "step": 273900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.125840537944285e-05,
      "loss": 2.2338,
      "step": 274000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.051624298095703,
      "eval_runtime": 100.6,
      "eval_samples_per_second": 99.404,
      "eval_steps_per_second": 6.213,
      "step": 274000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.125520333013129e-05,
      "loss": 2.2531,
      "step": 274100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.125200128081973e-05,
      "loss": 2.2266,
      "step": 274200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1248799231508166e-05,
      "loss": 2.2393,
      "step": 274300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.124559718219661e-05,
      "loss": 2.2233,
      "step": 274400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1242395132885046e-05,
      "loss": 2.2461,
      "step": 274500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.123919308357349e-05,
      "loss": 2.2742,
      "step": 274600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1235991034261925e-05,
      "loss": 2.2413,
      "step": 274700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.123278898495037e-05,
      "loss": 2.2573,
      "step": 274800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.122958693563881e-05,
      "loss": 2.2304,
      "step": 274900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.122638488632725e-05,
      "loss": 2.2437,
      "step": 275000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.051896095275879,
      "eval_runtime": 109.0949,
      "eval_samples_per_second": 91.663,
      "eval_steps_per_second": 5.729,
      "step": 275000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.12231828370157e-05,
      "loss": 2.233,
      "step": 275100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.121998078770413e-05,
      "loss": 2.2412,
      "step": 275200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.121677873839258e-05,
      "loss": 2.242,
      "step": 275300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.121357668908101e-05,
      "loss": 2.2487,
      "step": 275400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.121037463976946e-05,
      "loss": 2.232,
      "step": 275500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.120717259045789e-05,
      "loss": 2.2282,
      "step": 275600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1203970541146336e-05,
      "loss": 2.2148,
      "step": 275700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1200768491834776e-05,
      "loss": 2.2457,
      "step": 275800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1197566442523216e-05,
      "loss": 2.232,
      "step": 275900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.119436439321166e-05,
      "loss": 2.2503,
      "step": 276000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.0517077445983887,
      "eval_runtime": 109.2885,
      "eval_samples_per_second": 91.501,
      "eval_steps_per_second": 5.719,
      "step": 276000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1191162343900095e-05,
      "loss": 2.2401,
      "step": 276100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.118796029458854e-05,
      "loss": 2.2551,
      "step": 276200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1184758245276975e-05,
      "loss": 2.2371,
      "step": 276300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.118155619596542e-05,
      "loss": 2.2576,
      "step": 276400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.117835414665386e-05,
      "loss": 2.2567,
      "step": 276500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.11751520973423e-05,
      "loss": 2.2536,
      "step": 276600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.117195004803075e-05,
      "loss": 2.2303,
      "step": 276700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.116874799871918e-05,
      "loss": 2.2319,
      "step": 276800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.116554594940763e-05,
      "loss": 2.2544,
      "step": 276900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.116234390009606e-05,
      "loss": 2.2254,
      "step": 277000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.0530827045440674,
      "eval_runtime": 106.3496,
      "eval_samples_per_second": 94.029,
      "eval_steps_per_second": 5.877,
      "step": 277000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1159141850784506e-05,
      "loss": 2.2227,
      "step": 277100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.115593980147294e-05,
      "loss": 2.2564,
      "step": 277200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1152737752161386e-05,
      "loss": 2.2346,
      "step": 277300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1149535702849825e-05,
      "loss": 2.2453,
      "step": 277400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1146333653538265e-05,
      "loss": 2.2353,
      "step": 277500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.114313160422671e-05,
      "loss": 2.2634,
      "step": 277600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1139929554915145e-05,
      "loss": 2.2288,
      "step": 277700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.113672750560359e-05,
      "loss": 2.2361,
      "step": 277800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1133525456292024e-05,
      "loss": 2.2346,
      "step": 277900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.113032340698047e-05,
      "loss": 2.2555,
      "step": 278000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.047550678253174,
      "eval_runtime": 102.0349,
      "eval_samples_per_second": 98.006,
      "eval_steps_per_second": 6.125,
      "step": 278000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.112712135766891e-05,
      "loss": 2.2495,
      "step": 278100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.112391930835735e-05,
      "loss": 2.2479,
      "step": 278200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1120717259045797e-05,
      "loss": 2.2297,
      "step": 278300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.111751520973423e-05,
      "loss": 2.2216,
      "step": 278400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1114313160422676e-05,
      "loss": 2.2351,
      "step": 278500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.111111111111111e-05,
      "loss": 2.2305,
      "step": 278600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1107909061799556e-05,
      "loss": 2.2337,
      "step": 278700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.110470701248799e-05,
      "loss": 2.2331,
      "step": 278800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1101504963176435e-05,
      "loss": 2.2343,
      "step": 278900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1098302913864875e-05,
      "loss": 2.2357,
      "step": 279000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.050912857055664,
      "eval_runtime": 100.6005,
      "eval_samples_per_second": 99.403,
      "eval_steps_per_second": 6.213,
      "step": 279000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1095100864553314e-05,
      "loss": 2.2334,
      "step": 279100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.109189881524176e-05,
      "loss": 2.2381,
      "step": 279200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1088696765930194e-05,
      "loss": 2.2382,
      "step": 279300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.108549471661864e-05,
      "loss": 2.2458,
      "step": 279400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1082292667307073e-05,
      "loss": 2.2331,
      "step": 279500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.107909061799552e-05,
      "loss": 2.2458,
      "step": 279600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.107588856868396e-05,
      "loss": 2.2354,
      "step": 279700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.10726865193724e-05,
      "loss": 2.2452,
      "step": 279800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1069484470060846e-05,
      "loss": 2.2324,
      "step": 279900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.106628242074928e-05,
      "loss": 2.2533,
      "step": 280000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.051093578338623,
      "eval_runtime": 101.53,
      "eval_samples_per_second": 98.493,
      "eval_steps_per_second": 6.156,
      "step": 280000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1063080371437725e-05,
      "loss": 2.2417,
      "step": 280100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.105987832212616e-05,
      "loss": 2.2344,
      "step": 280200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1056676272814605e-05,
      "loss": 2.2341,
      "step": 280300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.105347422350304e-05,
      "loss": 2.2459,
      "step": 280400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1050272174191484e-05,
      "loss": 2.2745,
      "step": 280500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1047070124879924e-05,
      "loss": 2.2158,
      "step": 280600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1043868075568364e-05,
      "loss": 2.2394,
      "step": 280700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.104066602625681e-05,
      "loss": 2.2176,
      "step": 280800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.103746397694524e-05,
      "loss": 2.2371,
      "step": 280900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.103426192763369e-05,
      "loss": 2.2534,
      "step": 281000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.0498414039611816,
      "eval_runtime": 97.3649,
      "eval_samples_per_second": 102.706,
      "eval_steps_per_second": 6.419,
      "step": 281000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.103105987832212e-05,
      "loss": 2.2261,
      "step": 281100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.102785782901057e-05,
      "loss": 2.2472,
      "step": 281200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.102465577969901e-05,
      "loss": 2.2277,
      "step": 281300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.102145373038745e-05,
      "loss": 2.2477,
      "step": 281400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1018251681075895e-05,
      "loss": 2.2313,
      "step": 281500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.101504963176433e-05,
      "loss": 2.229,
      "step": 281600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1011847582452775e-05,
      "loss": 2.2391,
      "step": 281700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.100864553314121e-05,
      "loss": 2.2321,
      "step": 281800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1005443483829654e-05,
      "loss": 2.2429,
      "step": 281900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.1002241434518094e-05,
      "loss": 2.22,
      "step": 282000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.0525310039520264,
      "eval_runtime": 97.9775,
      "eval_samples_per_second": 102.064,
      "eval_steps_per_second": 6.379,
      "step": 282000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.0999039385206534e-05,
      "loss": 2.245,
      "step": 282100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.0995837335894973e-05,
      "loss": 2.2193,
      "step": 282200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.099263528658341e-05,
      "loss": 2.2461,
      "step": 282300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.098943323727186e-05,
      "loss": 2.2124,
      "step": 282400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.098623118796029e-05,
      "loss": 2.2304,
      "step": 282500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.098302913864874e-05,
      "loss": 2.2343,
      "step": 282600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.097982708933718e-05,
      "loss": 2.2264,
      "step": 282700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.097662504002562e-05,
      "loss": 2.2349,
      "step": 282800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.097342299071406e-05,
      "loss": 2.2365,
      "step": 282900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.09702209414025e-05,
      "loss": 2.2378,
      "step": 283000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.0506439208984375,
      "eval_runtime": 101.0277,
      "eval_samples_per_second": 98.983,
      "eval_steps_per_second": 6.186,
      "step": 283000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.0967018892090945e-05,
      "loss": 2.2458,
      "step": 283100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.096381684277938e-05,
      "loss": 2.2291,
      "step": 283200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.0960614793467824e-05,
      "loss": 2.2377,
      "step": 283300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.095741274415626e-05,
      "loss": 2.2452,
      "step": 283400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.0954210694844704e-05,
      "loss": 2.2351,
      "step": 283500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.095100864553314e-05,
      "loss": 2.2292,
      "step": 283600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.094780659622158e-05,
      "loss": 2.2387,
      "step": 283700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.094460454691002e-05,
      "loss": 2.2218,
      "step": 283800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.094140249759846e-05,
      "loss": 2.2552,
      "step": 283900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.093820044828691e-05,
      "loss": 2.2476,
      "step": 284000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.0512990951538086,
      "eval_runtime": 102.7395,
      "eval_samples_per_second": 97.334,
      "eval_steps_per_second": 6.083,
      "step": 284000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.093499839897534e-05,
      "loss": 2.2522,
      "step": 284100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.093179634966379e-05,
      "loss": 2.2533,
      "step": 284200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.092859430035223e-05,
      "loss": 2.2419,
      "step": 284300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.092539225104067e-05,
      "loss": 2.238,
      "step": 284400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.092219020172911e-05,
      "loss": 2.2272,
      "step": 284500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.091898815241755e-05,
      "loss": 2.246,
      "step": 284600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.0915786103105994e-05,
      "loss": 2.2189,
      "step": 284700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.091258405379443e-05,
      "loss": 2.2531,
      "step": 284800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.0909382004482874e-05,
      "loss": 2.2224,
      "step": 284900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.090617995517131e-05,
      "loss": 2.2306,
      "step": 285000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.0476183891296387,
      "eval_runtime": 98.5385,
      "eval_samples_per_second": 101.483,
      "eval_steps_per_second": 6.343,
      "step": 285000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.090297790585975e-05,
      "loss": 2.2328,
      "step": 285100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.089977585654819e-05,
      "loss": 2.2352,
      "step": 285200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.089657380723663e-05,
      "loss": 2.2294,
      "step": 285300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.089337175792507e-05,
      "loss": 2.2363,
      "step": 285400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.089016970861351e-05,
      "loss": 2.2225,
      "step": 285500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.088696765930196e-05,
      "loss": 2.2353,
      "step": 285600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.088376560999039e-05,
      "loss": 2.2454,
      "step": 285700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.088056356067884e-05,
      "loss": 2.245,
      "step": 285800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.087736151136728e-05,
      "loss": 2.22,
      "step": 285900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.087415946205572e-05,
      "loss": 2.2586,
      "step": 286000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.0498831272125244,
      "eval_runtime": 104.4518,
      "eval_samples_per_second": 95.738,
      "eval_steps_per_second": 5.984,
      "step": 286000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.087095741274416e-05,
      "loss": 2.2308,
      "step": 286100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.08677553634326e-05,
      "loss": 2.2281,
      "step": 286200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.0864553314121043e-05,
      "loss": 2.2225,
      "step": 286300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.0861351264809476e-05,
      "loss": 2.2373,
      "step": 286400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.085814921549792e-05,
      "loss": 2.2525,
      "step": 286500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.085494716618636e-05,
      "loss": 2.2349,
      "step": 286600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.08517451168748e-05,
      "loss": 2.218,
      "step": 286700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.084854306756324e-05,
      "loss": 2.2369,
      "step": 286800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.084534101825168e-05,
      "loss": 2.2327,
      "step": 286900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.084213896894012e-05,
      "loss": 2.2542,
      "step": 287000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.0470058917999268,
      "eval_runtime": 101.339,
      "eval_samples_per_second": 98.679,
      "eval_steps_per_second": 6.167,
      "step": 287000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.083893691962856e-05,
      "loss": 2.2266,
      "step": 287100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.083573487031701e-05,
      "loss": 2.2358,
      "step": 287200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.083253282100545e-05,
      "loss": 2.2307,
      "step": 287300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.082933077169389e-05,
      "loss": 2.2392,
      "step": 287400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.082612872238233e-05,
      "loss": 2.2215,
      "step": 287500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.082292667307077e-05,
      "loss": 2.2406,
      "step": 287600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.0819724623759207e-05,
      "loss": 2.2144,
      "step": 287700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.0816522574447646e-05,
      "loss": 2.2546,
      "step": 287800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.081332052513609e-05,
      "loss": 2.228,
      "step": 287900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.0810118475824526e-05,
      "loss": 2.2238,
      "step": 288000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.0426981449127197,
      "eval_runtime": 101.4929,
      "eval_samples_per_second": 98.529,
      "eval_steps_per_second": 6.158,
      "step": 288000
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.080691642651297e-05,
      "loss": 2.2348,
      "step": 288100
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.080371437720141e-05,
      "loss": 2.217,
      "step": 288200
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.080051232788985e-05,
      "loss": 2.2276,
      "step": 288300
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.079731027857829e-05,
      "loss": 2.207,
      "step": 288400
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.079410822926673e-05,
      "loss": 2.2483,
      "step": 288500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.079090617995517e-05,
      "loss": 2.228,
      "step": 288600
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.078770413064361e-05,
      "loss": 2.2203,
      "step": 288700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.078450208133206e-05,
      "loss": 2.2308,
      "step": 288800
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.07813000320205e-05,
      "loss": 2.2206,
      "step": 288900
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.077809798270894e-05,
      "loss": 2.23,
      "step": 289000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.0461909770965576,
      "eval_runtime": 101.8894,
      "eval_samples_per_second": 98.146,
      "eval_steps_per_second": 6.134,
      "step": 289000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0774895933397376e-05,
      "loss": 2.2246,
      "step": 289100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0771693884085816e-05,
      "loss": 2.2449,
      "step": 289200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0768491834774256e-05,
      "loss": 2.2336,
      "step": 289300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0765289785462696e-05,
      "loss": 2.2227,
      "step": 289400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.076208773615114e-05,
      "loss": 2.249,
      "step": 289500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.075888568683958e-05,
      "loss": 2.2504,
      "step": 289600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.075568363752802e-05,
      "loss": 2.2359,
      "step": 289700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.075248158821646e-05,
      "loss": 2.2402,
      "step": 289800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.07492795389049e-05,
      "loss": 2.2327,
      "step": 289900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.074607748959334e-05,
      "loss": 2.2275,
      "step": 290000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.0470879077911377,
      "eval_runtime": 101.3381,
      "eval_samples_per_second": 98.68,
      "eval_steps_per_second": 6.167,
      "step": 290000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.074287544028178e-05,
      "loss": 2.2172,
      "step": 290100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.073967339097022e-05,
      "loss": 2.2387,
      "step": 290200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.073647134165866e-05,
      "loss": 2.2146,
      "step": 290300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0733269292347107e-05,
      "loss": 2.2253,
      "step": 290400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0730067243035546e-05,
      "loss": 2.2414,
      "step": 290500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0726865193723986e-05,
      "loss": 2.2283,
      "step": 290600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0723663144412426e-05,
      "loss": 2.2411,
      "step": 290700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0720461095100866e-05,
      "loss": 2.2278,
      "step": 290800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0717259045789305e-05,
      "loss": 2.21,
      "step": 290900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0714056996477745e-05,
      "loss": 2.221,
      "step": 291000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.053814172744751,
      "eval_runtime": 101.3809,
      "eval_samples_per_second": 98.638,
      "eval_steps_per_second": 6.165,
      "step": 291000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.071085494716619e-05,
      "loss": 2.2309,
      "step": 291100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.070765289785463e-05,
      "loss": 2.2373,
      "step": 291200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.070445084854307e-05,
      "loss": 2.2232,
      "step": 291300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.070124879923151e-05,
      "loss": 2.2389,
      "step": 291400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.069804674991995e-05,
      "loss": 2.2339,
      "step": 291500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.069484470060839e-05,
      "loss": 2.2525,
      "step": 291600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.069164265129683e-05,
      "loss": 2.2212,
      "step": 291700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.068844060198527e-05,
      "loss": 2.2101,
      "step": 291800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0685238552673716e-05,
      "loss": 2.2354,
      "step": 291900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0682036503362156e-05,
      "loss": 2.2494,
      "step": 292000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.047560930252075,
      "eval_runtime": 102.8048,
      "eval_samples_per_second": 97.272,
      "eval_steps_per_second": 6.079,
      "step": 292000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0678834454050596e-05,
      "loss": 2.2262,
      "step": 292100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0675632404739035e-05,
      "loss": 2.2483,
      "step": 292200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0672430355427475e-05,
      "loss": 2.2414,
      "step": 292300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0669228306115915e-05,
      "loss": 2.2826,
      "step": 292400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0666026256804355e-05,
      "loss": 2.2339,
      "step": 292500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.06628242074928e-05,
      "loss": 2.2375,
      "step": 292600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.065962215818124e-05,
      "loss": 2.2245,
      "step": 292700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.065642010886968e-05,
      "loss": 2.2491,
      "step": 292800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.065321805955812e-05,
      "loss": 2.2203,
      "step": 292900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.065001601024656e-05,
      "loss": 2.2479,
      "step": 293000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.0457358360290527,
      "eval_runtime": 102.0216,
      "eval_samples_per_second": 98.018,
      "eval_steps_per_second": 6.126,
      "step": 293000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0646813960935e-05,
      "loss": 2.2363,
      "step": 293100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.064361191162344e-05,
      "loss": 2.2333,
      "step": 293200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.064040986231188e-05,
      "loss": 2.2283,
      "step": 293300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.063720781300032e-05,
      "loss": 2.2072,
      "step": 293400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0634005763688766e-05,
      "loss": 2.2412,
      "step": 293500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0630803714377205e-05,
      "loss": 2.2484,
      "step": 293600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0627601665065645e-05,
      "loss": 2.2374,
      "step": 293700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0624399615754085e-05,
      "loss": 2.2548,
      "step": 293800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0621197566442525e-05,
      "loss": 2.2303,
      "step": 293900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0617995517130964e-05,
      "loss": 2.2309,
      "step": 294000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.046950578689575,
      "eval_runtime": 101.888,
      "eval_samples_per_second": 98.147,
      "eval_steps_per_second": 6.134,
      "step": 294000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0614793467819404e-05,
      "loss": 2.2399,
      "step": 294100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.061159141850785e-05,
      "loss": 2.2118,
      "step": 294200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0608389369196284e-05,
      "loss": 2.2117,
      "step": 294300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.060518731988473e-05,
      "loss": 2.2366,
      "step": 294400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.060198527057317e-05,
      "loss": 2.2454,
      "step": 294500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.059878322126161e-05,
      "loss": 2.2261,
      "step": 294600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.059558117195005e-05,
      "loss": 2.2295,
      "step": 294700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.059237912263849e-05,
      "loss": 2.2286,
      "step": 294800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0589177073326935e-05,
      "loss": 2.2352,
      "step": 294900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.058597502401537e-05,
      "loss": 2.2283,
      "step": 295000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.044435501098633,
      "eval_runtime": 97.0944,
      "eval_samples_per_second": 102.993,
      "eval_steps_per_second": 6.437,
      "step": 295000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0582772974703815e-05,
      "loss": 2.2223,
      "step": 295100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0579570925392255e-05,
      "loss": 2.2043,
      "step": 295200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0576368876080694e-05,
      "loss": 2.2082,
      "step": 295300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0573166826769134e-05,
      "loss": 2.2329,
      "step": 295400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0569964777457574e-05,
      "loss": 2.2249,
      "step": 295500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0566762728146014e-05,
      "loss": 2.2372,
      "step": 295600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0563560678834453e-05,
      "loss": 2.2224,
      "step": 295700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.05603586295229e-05,
      "loss": 2.2154,
      "step": 295800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.055715658021133e-05,
      "loss": 2.225,
      "step": 295900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.055395453089978e-05,
      "loss": 2.2219,
      "step": 296000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.045121192932129,
      "eval_runtime": 101.7203,
      "eval_samples_per_second": 98.309,
      "eval_steps_per_second": 6.144,
      "step": 296000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.055075248158822e-05,
      "loss": 2.2228,
      "step": 296100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.054755043227666e-05,
      "loss": 2.235,
      "step": 296200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.05443483829651e-05,
      "loss": 2.2264,
      "step": 296300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.054114633365354e-05,
      "loss": 2.2333,
      "step": 296400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0537944284341985e-05,
      "loss": 2.2294,
      "step": 296500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.053474223503042e-05,
      "loss": 2.2337,
      "step": 296600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0531540185718864e-05,
      "loss": 2.2195,
      "step": 296700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0528338136407304e-05,
      "loss": 2.2172,
      "step": 296800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0525136087095744e-05,
      "loss": 2.2287,
      "step": 296900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0521934037784184e-05,
      "loss": 2.2433,
      "step": 297000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.045281171798706,
      "eval_runtime": 101.4031,
      "eval_samples_per_second": 98.616,
      "eval_steps_per_second": 6.164,
      "step": 297000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.051873198847262e-05,
      "loss": 2.2363,
      "step": 297100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.051552993916107e-05,
      "loss": 2.23,
      "step": 297200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.05123278898495e-05,
      "loss": 2.213,
      "step": 297300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.050912584053795e-05,
      "loss": 2.251,
      "step": 297400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.050592379122638e-05,
      "loss": 2.2397,
      "step": 297500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.050272174191483e-05,
      "loss": 2.212,
      "step": 297600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.049951969260327e-05,
      "loss": 2.2122,
      "step": 297700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.049631764329171e-05,
      "loss": 2.2361,
      "step": 297800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.049311559398015e-05,
      "loss": 2.2348,
      "step": 297900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.048991354466859e-05,
      "loss": 2.2138,
      "step": 298000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.044325351715088,
      "eval_runtime": 102.1073,
      "eval_samples_per_second": 97.936,
      "eval_steps_per_second": 6.121,
      "step": 298000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0486711495357034e-05,
      "loss": 2.2221,
      "step": 298100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.048350944604547e-05,
      "loss": 2.225,
      "step": 298200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0480307396733914e-05,
      "loss": 2.2277,
      "step": 298300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0477105347422353e-05,
      "loss": 2.2164,
      "step": 298400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.047390329811079e-05,
      "loss": 2.2247,
      "step": 298500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.047070124879923e-05,
      "loss": 2.2391,
      "step": 298600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.046749919948767e-05,
      "loss": 2.2406,
      "step": 298700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.046429715017612e-05,
      "loss": 2.2223,
      "step": 298800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.046109510086455e-05,
      "loss": 2.2336,
      "step": 298900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0457893051553e-05,
      "loss": 2.2237,
      "step": 299000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.044222831726074,
      "eval_runtime": 101.9752,
      "eval_samples_per_second": 98.063,
      "eval_steps_per_second": 6.129,
      "step": 299000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.045469100224143e-05,
      "loss": 2.2205,
      "step": 299100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.045148895292988e-05,
      "loss": 2.2353,
      "step": 299200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.044828690361832e-05,
      "loss": 2.2111,
      "step": 299300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.044508485430676e-05,
      "loss": 2.2079,
      "step": 299400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0441882804995204e-05,
      "loss": 2.2184,
      "step": 299500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.043868075568364e-05,
      "loss": 2.2132,
      "step": 299600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0435478706372084e-05,
      "loss": 2.233,
      "step": 299700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0432276657060517e-05,
      "loss": 2.2362,
      "step": 299800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.042907460774896e-05,
      "loss": 2.2449,
      "step": 299900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.04258725584374e-05,
      "loss": 2.2197,
      "step": 300000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.04464054107666,
      "eval_runtime": 101.4646,
      "eval_samples_per_second": 98.557,
      "eval_steps_per_second": 6.16,
      "step": 300000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.042267050912584e-05,
      "loss": 2.2208,
      "step": 300100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.041946845981428e-05,
      "loss": 2.2363,
      "step": 300200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.041626641050272e-05,
      "loss": 2.236,
      "step": 300300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.041306436119117e-05,
      "loss": 2.2191,
      "step": 300400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.04098623118796e-05,
      "loss": 2.2251,
      "step": 300500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.040666026256805e-05,
      "loss": 2.2306,
      "step": 300600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.040345821325648e-05,
      "loss": 2.2425,
      "step": 300700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.040025616394493e-05,
      "loss": 2.2251,
      "step": 300800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.039705411463337e-05,
      "loss": 2.2445,
      "step": 300900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.039385206532181e-05,
      "loss": 2.2212,
      "step": 301000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.046048164367676,
      "eval_runtime": 98.3867,
      "eval_samples_per_second": 101.64,
      "eval_steps_per_second": 6.352,
      "step": 301000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0390650016010254e-05,
      "loss": 2.2059,
      "step": 301100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0387447966698686e-05,
      "loss": 2.2131,
      "step": 301200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.038424591738713e-05,
      "loss": 2.2169,
      "step": 301300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0381043868075566e-05,
      "loss": 2.2334,
      "step": 301400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.037784181876401e-05,
      "loss": 2.2493,
      "step": 301500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.037463976945245e-05,
      "loss": 2.2348,
      "step": 301600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.037143772014089e-05,
      "loss": 2.213,
      "step": 301700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.036823567082934e-05,
      "loss": 2.2265,
      "step": 301800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.036503362151777e-05,
      "loss": 2.2429,
      "step": 301900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.036183157220622e-05,
      "loss": 2.21,
      "step": 302000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.047536611557007,
      "eval_runtime": 98.9511,
      "eval_samples_per_second": 101.06,
      "eval_steps_per_second": 6.316,
      "step": 302000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.035862952289465e-05,
      "loss": 2.2198,
      "step": 302100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.03554274735831e-05,
      "loss": 2.2222,
      "step": 302200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.035222542427153e-05,
      "loss": 2.235,
      "step": 302300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.034902337495998e-05,
      "loss": 2.2477,
      "step": 302400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.034582132564842e-05,
      "loss": 2.2382,
      "step": 302500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0342619276336856e-05,
      "loss": 2.2224,
      "step": 302600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.03394172270253e-05,
      "loss": 2.2479,
      "step": 302700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0336215177713736e-05,
      "loss": 2.2253,
      "step": 302800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.033301312840218e-05,
      "loss": 2.2077,
      "step": 302900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0329811079090615e-05,
      "loss": 2.2226,
      "step": 303000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.0430243015289307,
      "eval_runtime": 100.5735,
      "eval_samples_per_second": 99.43,
      "eval_steps_per_second": 6.214,
      "step": 303000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.032660902977906e-05,
      "loss": 2.2321,
      "step": 303100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.03234069804675e-05,
      "loss": 2.2198,
      "step": 303200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.032020493115594e-05,
      "loss": 2.2583,
      "step": 303300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.031700288184439e-05,
      "loss": 2.2147,
      "step": 303400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.031380083253282e-05,
      "loss": 2.2392,
      "step": 303500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.031059878322127e-05,
      "loss": 2.2114,
      "step": 303600
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.03073967339097e-05,
      "loss": 2.22,
      "step": 303700
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.030419468459815e-05,
      "loss": 2.2383,
      "step": 303800
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.030099263528658e-05,
      "loss": 2.2003,
      "step": 303900
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0297790585975026e-05,
      "loss": 2.2223,
      "step": 304000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.039013624191284,
      "eval_runtime": 103.065,
      "eval_samples_per_second": 97.026,
      "eval_steps_per_second": 6.064,
      "step": 304000
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0294588536663466e-05,
      "loss": 2.234,
      "step": 304100
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0291386487351906e-05,
      "loss": 2.2175,
      "step": 304200
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.028818443804035e-05,
      "loss": 2.2245,
      "step": 304300
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0284982388728785e-05,
      "loss": 2.2052,
      "step": 304400
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.028178033941723e-05,
      "loss": 2.2341,
      "step": 304500
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.0278578290105665e-05,
      "loss": 2.1994,
      "step": 304600
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.027537624079411e-05,
      "loss": 2.2297,
      "step": 304700
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.027217419148255e-05,
      "loss": 2.2044,
      "step": 304800
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.026897214217099e-05,
      "loss": 2.2349,
      "step": 304900
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.026577009285944e-05,
      "loss": 2.2217,
      "step": 305000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.0454540252685547,
      "eval_runtime": 101.9173,
      "eval_samples_per_second": 98.119,
      "eval_steps_per_second": 6.132,
      "step": 305000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.026256804354787e-05,
      "loss": 2.1973,
      "step": 305100
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.025936599423632e-05,
      "loss": 2.1954,
      "step": 305200
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.025616394492475e-05,
      "loss": 2.1924,
      "step": 305300
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0252961895613196e-05,
      "loss": 2.2322,
      "step": 305400
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.024975984630163e-05,
      "loss": 2.2401,
      "step": 305500
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0246557796990076e-05,
      "loss": 2.232,
      "step": 305600
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0243355747678515e-05,
      "loss": 2.2171,
      "step": 305700
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0240153698366955e-05,
      "loss": 2.226,
      "step": 305800
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.02369516490554e-05,
      "loss": 2.2279,
      "step": 305900
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0233749599743835e-05,
      "loss": 2.2281,
      "step": 306000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.042785167694092,
      "eval_runtime": 101.7235,
      "eval_samples_per_second": 98.306,
      "eval_steps_per_second": 6.144,
      "step": 306000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.023054755043228e-05,
      "loss": 2.2042,
      "step": 306100
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0227345501120714e-05,
      "loss": 2.2159,
      "step": 306200
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.022414345180916e-05,
      "loss": 2.224,
      "step": 306300
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.02209414024976e-05,
      "loss": 2.2249,
      "step": 306400
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.021773935318604e-05,
      "loss": 2.2083,
      "step": 306500
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0214537303874487e-05,
      "loss": 2.2413,
      "step": 306600
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.021133525456292e-05,
      "loss": 2.2158,
      "step": 306700
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0208133205251366e-05,
      "loss": 2.2161,
      "step": 306800
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.02049311559398e-05,
      "loss": 2.2135,
      "step": 306900
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0201729106628246e-05,
      "loss": 2.19,
      "step": 307000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.0464231967926025,
      "eval_runtime": 101.4272,
      "eval_samples_per_second": 98.593,
      "eval_steps_per_second": 6.162,
      "step": 307000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0198527057316685e-05,
      "loss": 2.2325,
      "step": 307100
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0195325008005125e-05,
      "loss": 2.2476,
      "step": 307200
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0192122958693565e-05,
      "loss": 2.2082,
      "step": 307300
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0188920909382004e-05,
      "loss": 2.2329,
      "step": 307400
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.018571886007045e-05,
      "loss": 2.2238,
      "step": 307500
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0182516810758884e-05,
      "loss": 2.2558,
      "step": 307600
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.017931476144733e-05,
      "loss": 2.2049,
      "step": 307700
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0176112712135763e-05,
      "loss": 2.2232,
      "step": 307800
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.017291066282421e-05,
      "loss": 2.2434,
      "step": 307900
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.016970861351265e-05,
      "loss": 2.2301,
      "step": 308000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.040384531021118,
      "eval_runtime": 101.0562,
      "eval_samples_per_second": 98.955,
      "eval_steps_per_second": 6.185,
      "step": 308000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.016650656420109e-05,
      "loss": 2.2327,
      "step": 308100
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0163304514889536e-05,
      "loss": 2.2376,
      "step": 308200
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.016010246557797e-05,
      "loss": 2.2109,
      "step": 308300
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0156900416266415e-05,
      "loss": 2.2175,
      "step": 308400
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.015369836695485e-05,
      "loss": 2.2345,
      "step": 308500
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0150496317643295e-05,
      "loss": 2.2213,
      "step": 308600
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0147294268331735e-05,
      "loss": 2.2324,
      "step": 308700
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0144092219020174e-05,
      "loss": 2.2232,
      "step": 308800
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0140890169708614e-05,
      "loss": 2.2303,
      "step": 308900
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0137688120397054e-05,
      "loss": 2.226,
      "step": 309000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.042255401611328,
      "eval_runtime": 97.0892,
      "eval_samples_per_second": 102.998,
      "eval_steps_per_second": 6.437,
      "step": 309000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.01344860710855e-05,
      "loss": 2.2369,
      "step": 309100
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.013128402177393e-05,
      "loss": 2.2311,
      "step": 309200
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.012808197246238e-05,
      "loss": 2.201,
      "step": 309300
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.012487992315082e-05,
      "loss": 2.2166,
      "step": 309400
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.012167787383926e-05,
      "loss": 2.1906,
      "step": 309500
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.01184758245277e-05,
      "loss": 2.2254,
      "step": 309600
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.011527377521614e-05,
      "loss": 2.2343,
      "step": 309700
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0112071725904585e-05,
      "loss": 2.2226,
      "step": 309800
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.010886967659302e-05,
      "loss": 2.2284,
      "step": 309900
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0105667627281465e-05,
      "loss": 2.2303,
      "step": 310000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.04202938079834,
      "eval_runtime": 98.5871,
      "eval_samples_per_second": 101.433,
      "eval_steps_per_second": 6.34,
      "step": 310000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.01024655779699e-05,
      "loss": 2.232,
      "step": 310100
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0099263528658344e-05,
      "loss": 2.2007,
      "step": 310200
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0096061479346784e-05,
      "loss": 2.2087,
      "step": 310300
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0092859430035224e-05,
      "loss": 2.23,
      "step": 310400
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0089657380723663e-05,
      "loss": 2.2408,
      "step": 310500
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.00864553314121e-05,
      "loss": 2.2024,
      "step": 310600
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.008325328210055e-05,
      "loss": 2.2184,
      "step": 310700
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.008005123278898e-05,
      "loss": 2.2035,
      "step": 310800
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.007684918347743e-05,
      "loss": 2.2289,
      "step": 310900
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.007364713416587e-05,
      "loss": 2.2094,
      "step": 311000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.0379908084869385,
      "eval_runtime": 99.5037,
      "eval_samples_per_second": 100.499,
      "eval_steps_per_second": 6.281,
      "step": 311000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.007044508485431e-05,
      "loss": 2.205,
      "step": 311100
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.006724303554275e-05,
      "loss": 2.2082,
      "step": 311200
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.006404098623119e-05,
      "loss": 2.2258,
      "step": 311300
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0060838936919635e-05,
      "loss": 2.2196,
      "step": 311400
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.005763688760807e-05,
      "loss": 2.2549,
      "step": 311500
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0054434838296514e-05,
      "loss": 2.2226,
      "step": 311600
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0051232788984954e-05,
      "loss": 2.1968,
      "step": 311700
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0048030739673394e-05,
      "loss": 2.2406,
      "step": 311800
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.004482869036183e-05,
      "loss": 2.1998,
      "step": 311900
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.004162664105027e-05,
      "loss": 2.2115,
      "step": 312000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.041653633117676,
      "eval_runtime": 102.8688,
      "eval_samples_per_second": 97.211,
      "eval_steps_per_second": 6.076,
      "step": 312000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.003842459173871e-05,
      "loss": 2.2268,
      "step": 312100
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.003522254242715e-05,
      "loss": 2.2223,
      "step": 312200
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.00320204931156e-05,
      "loss": 2.2177,
      "step": 312300
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.002881844380404e-05,
      "loss": 2.2407,
      "step": 312400
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.002561639449248e-05,
      "loss": 2.2153,
      "step": 312500
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.002241434518092e-05,
      "loss": 2.2251,
      "step": 312600
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.001921229586936e-05,
      "loss": 2.1957,
      "step": 312700
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.00160102465578e-05,
      "loss": 2.2106,
      "step": 312800
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.001280819724624e-05,
      "loss": 2.2084,
      "step": 312900
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.000960614793468e-05,
      "loss": 2.241,
      "step": 313000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.043058156967163,
      "eval_runtime": 104.8747,
      "eval_samples_per_second": 95.352,
      "eval_steps_per_second": 5.959,
      "step": 313000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.000640409862312e-05,
      "loss": 2.2019,
      "step": 313100
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.0003202049311564e-05,
      "loss": 2.2229,
      "step": 313200
    },
    {
      "epoch": 0.2,
      "learning_rate": 4e-05,
      "loss": 2.2122,
      "step": 313300
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.999679795068844e-05,
      "loss": 2.2152,
      "step": 313400
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.999359590137688e-05,
      "loss": 2.2278,
      "step": 313500
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.999039385206532e-05,
      "loss": 2.2079,
      "step": 313600
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.998719180275376e-05,
      "loss": 2.216,
      "step": 313700
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.99839897534422e-05,
      "loss": 2.2195,
      "step": 313800
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.998078770413065e-05,
      "loss": 2.2306,
      "step": 313900
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.997758565481909e-05,
      "loss": 2.2155,
      "step": 314000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.0434868335723877,
      "eval_runtime": 103.4102,
      "eval_samples_per_second": 96.702,
      "eval_steps_per_second": 6.044,
      "step": 314000
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.997438360550753e-05,
      "loss": 2.2015,
      "step": 314100
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.997118155619597e-05,
      "loss": 2.2187,
      "step": 314200
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.996797950688441e-05,
      "loss": 2.2382,
      "step": 314300
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.996477745757285e-05,
      "loss": 2.2103,
      "step": 314400
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.996157540826129e-05,
      "loss": 2.225,
      "step": 314500
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.995837335894973e-05,
      "loss": 2.2343,
      "step": 314600
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.995517130963817e-05,
      "loss": 2.2071,
      "step": 314700
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.995196926032661e-05,
      "loss": 2.2212,
      "step": 314800
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.994876721101505e-05,
      "loss": 2.2121,
      "step": 314900
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.994556516170349e-05,
      "loss": 2.1968,
      "step": 315000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.0425684452056885,
      "eval_runtime": 101.2119,
      "eval_samples_per_second": 98.803,
      "eval_steps_per_second": 6.175,
      "step": 315000
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.994236311239193e-05,
      "loss": 2.2028,
      "step": 315100
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.993916106308037e-05,
      "loss": 2.2359,
      "step": 315200
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.993595901376881e-05,
      "loss": 2.1969,
      "step": 315300
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.993275696445725e-05,
      "loss": 2.2067,
      "step": 315400
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.99295549151457e-05,
      "loss": 2.2112,
      "step": 315500
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.992635286583414e-05,
      "loss": 2.217,
      "step": 315600
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.992315081652258e-05,
      "loss": 2.2189,
      "step": 315700
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.991994876721102e-05,
      "loss": 2.2119,
      "step": 315800
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.991674671789946e-05,
      "loss": 2.2056,
      "step": 315900
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9913544668587897e-05,
      "loss": 2.2296,
      "step": 316000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.0383312702178955,
      "eval_runtime": 97.0866,
      "eval_samples_per_second": 103.001,
      "eval_steps_per_second": 6.438,
      "step": 316000
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9910342619276336e-05,
      "loss": 2.217,
      "step": 316100
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9907140569964776e-05,
      "loss": 2.2319,
      "step": 316200
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.990393852065322e-05,
      "loss": 2.1951,
      "step": 316300
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.990073647134166e-05,
      "loss": 2.2113,
      "step": 316400
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.98975344220301e-05,
      "loss": 2.2035,
      "step": 316500
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.989433237271854e-05,
      "loss": 2.2016,
      "step": 316600
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.989113032340698e-05,
      "loss": 2.2033,
      "step": 316700
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.988792827409542e-05,
      "loss": 2.2185,
      "step": 316800
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.988472622478386e-05,
      "loss": 2.2242,
      "step": 316900
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.988152417547231e-05,
      "loss": 2.2087,
      "step": 317000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.041874647140503,
      "eval_runtime": 97.1683,
      "eval_samples_per_second": 102.914,
      "eval_steps_per_second": 6.432,
      "step": 317000
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.987832212616075e-05,
      "loss": 2.2271,
      "step": 317100
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.987512007684919e-05,
      "loss": 2.2221,
      "step": 317200
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.987191802753763e-05,
      "loss": 2.2142,
      "step": 317300
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9868715978226066e-05,
      "loss": 2.1913,
      "step": 317400
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9865513928914506e-05,
      "loss": 2.2265,
      "step": 317500
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9862311879602946e-05,
      "loss": 2.2286,
      "step": 317600
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9859109830291386e-05,
      "loss": 2.225,
      "step": 317700
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9855907780979825e-05,
      "loss": 2.2097,
      "step": 317800
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.985270573166827e-05,
      "loss": 2.2146,
      "step": 317900
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.984950368235671e-05,
      "loss": 2.2226,
      "step": 318000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.0385842323303223,
      "eval_runtime": 97.1223,
      "eval_samples_per_second": 102.963,
      "eval_steps_per_second": 6.435,
      "step": 318000
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.984630163304515e-05,
      "loss": 2.2201,
      "step": 318100
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.984309958373359e-05,
      "loss": 2.1944,
      "step": 318200
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.983989753442203e-05,
      "loss": 2.2215,
      "step": 318300
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.983669548511047e-05,
      "loss": 2.2178,
      "step": 318400
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.983349343579891e-05,
      "loss": 2.2404,
      "step": 318500
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.983029138648736e-05,
      "loss": 2.2148,
      "step": 318600
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9827089337175797e-05,
      "loss": 2.2053,
      "step": 318700
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9823887287864236e-05,
      "loss": 2.2233,
      "step": 318800
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9820685238552676e-05,
      "loss": 2.205,
      "step": 318900
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9817483189241116e-05,
      "loss": 2.233,
      "step": 319000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.0375704765319824,
      "eval_runtime": 102.6365,
      "eval_samples_per_second": 97.431,
      "eval_steps_per_second": 6.089,
      "step": 319000
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9814281139929556e-05,
      "loss": 2.2226,
      "step": 319100
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9811079090617995e-05,
      "loss": 2.246,
      "step": 319200
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.980787704130644e-05,
      "loss": 2.217,
      "step": 319300
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9804674991994875e-05,
      "loss": 2.2202,
      "step": 319400
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.980147294268332e-05,
      "loss": 2.2,
      "step": 319500
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.979827089337176e-05,
      "loss": 2.2094,
      "step": 319600
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.97950688440602e-05,
      "loss": 2.2227,
      "step": 319700
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.979186679474864e-05,
      "loss": 2.2116,
      "step": 319800
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.978866474543708e-05,
      "loss": 2.2128,
      "step": 319900
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.978546269612553e-05,
      "loss": 2.2099,
      "step": 320000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.0405116081237793,
      "eval_runtime": 103.8818,
      "eval_samples_per_second": 96.263,
      "eval_steps_per_second": 6.016,
      "step": 320000
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.978226064681396e-05,
      "loss": 2.2281,
      "step": 320100
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9779058597502406e-05,
      "loss": 2.2133,
      "step": 320200
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.9775856548190846e-05,
      "loss": 2.2036,
      "step": 320300
    },
    {
      "epoch": 0.21,
      "learning_rate": 3.9772654498879286e-05,
      "loss": 2.1835,
      "step": 320400
    },
    {
      "epoch": 0.21,
      "learning_rate": 3.9769452449567725e-05,
      "loss": 2.2231,
      "step": 320500
    },
    {
      "epoch": 0.21,
      "learning_rate": 3.9766250400256165e-05,
      "loss": 2.2138,
      "step": 320600
    },
    {
      "epoch": 0.21,
      "learning_rate": 3.9763048350944605e-05,
      "loss": 2.2286,
      "step": 320700
    },
    {
      "epoch": 0.21,
      "learning_rate": 3.9759846301633045e-05,
      "loss": 2.21,
      "step": 320800
    },
    {
      "epoch": 0.21,
      "learning_rate": 3.975664425232149e-05,
      "loss": 2.233,
      "step": 320900
    },
    {
      "epoch": 0.21,
      "learning_rate": 3.9753442203009924e-05,
      "loss": 2.2244,
      "step": 321000
    },
    {
      "epoch": 0.21,
      "eval_loss": 2.036449432373047,
      "eval_runtime": 101.2759,
      "eval_samples_per_second": 98.74,
      "eval_steps_per_second": 6.171,
      "step": 321000
    }
  ],
  "max_steps": 1562500,
  "num_train_epochs": 1,
  "total_flos": 2.8641927870059643e+18,
  "trial_name": null,
  "trial_params": null
}