{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.3821579984474831,
  "eval_steps": 400,
  "global_step": 1600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00023884874902967696,
      "eval_loss": 1.5979785919189453,
      "eval_runtime": 224.9995,
      "eval_samples_per_second": 3.778,
      "eval_steps_per_second": 3.778,
      "step": 1
    },
    {
      "epoch": 0.0014330924941780617,
      "grad_norm": 20.875,
      "learning_rate": 6.000000000000001e-07,
      "loss": 1.8691,
      "step": 6
    },
    {
      "epoch": 0.0028661849883561234,
      "grad_norm": 14.0625,
      "learning_rate": 1.2000000000000002e-06,
      "loss": 1.8156,
      "step": 12
    },
    {
      "epoch": 0.004299277482534185,
      "grad_norm": 11.1875,
      "learning_rate": 1.8000000000000001e-06,
      "loss": 1.6925,
      "step": 18
    },
    {
      "epoch": 0.005732369976712247,
      "grad_norm": 7.15625,
      "learning_rate": 2.4000000000000003e-06,
      "loss": 1.612,
      "step": 24
    },
    {
      "epoch": 0.0071654624708903086,
      "grad_norm": 7.25,
      "learning_rate": 3e-06,
      "loss": 1.8222,
      "step": 30
    },
    {
      "epoch": 0.00859855496506837,
      "grad_norm": 5.71875,
      "learning_rate": 3.6000000000000003e-06,
      "loss": 1.6277,
      "step": 36
    },
    {
      "epoch": 0.010031647459246432,
      "grad_norm": 5.65625,
      "learning_rate": 4.2000000000000004e-06,
      "loss": 1.5655,
      "step": 42
    },
    {
      "epoch": 0.011464739953424494,
      "grad_norm": 6.90625,
      "learning_rate": 4.800000000000001e-06,
      "loss": 1.7691,
      "step": 48
    },
    {
      "epoch": 0.012897832447602555,
      "grad_norm": 6.96875,
      "learning_rate": 5.400000000000001e-06,
      "loss": 1.7085,
      "step": 54
    },
    {
      "epoch": 0.014330924941780617,
      "grad_norm": 5.3125,
      "learning_rate": 6e-06,
      "loss": 1.4649,
      "step": 60
    },
    {
      "epoch": 0.01576401743595868,
      "grad_norm": 15.8125,
      "learning_rate": 6.600000000000001e-06,
      "loss": 1.6534,
      "step": 66
    },
    {
      "epoch": 0.01719710993013674,
      "grad_norm": 42.75,
      "learning_rate": 7.2000000000000005e-06,
      "loss": 1.673,
      "step": 72
    },
    {
      "epoch": 0.018630202424314804,
      "grad_norm": 5.5,
      "learning_rate": 7.800000000000002e-06,
      "loss": 1.429,
      "step": 78
    },
    {
      "epoch": 0.020063294918492864,
      "grad_norm": 3.875,
      "learning_rate": 8.400000000000001e-06,
      "loss": 1.6067,
      "step": 84
    },
    {
      "epoch": 0.021496387412670927,
      "grad_norm": 4.53125,
      "learning_rate": 9e-06,
      "loss": 1.4336,
      "step": 90
    },
    {
      "epoch": 0.022929479906848987,
      "grad_norm": 4.40625,
      "learning_rate": 9.600000000000001e-06,
      "loss": 1.5998,
      "step": 96
    },
    {
      "epoch": 0.02436257240102705,
      "grad_norm": 5.40625,
      "learning_rate": 1.02e-05,
      "loss": 1.5259,
      "step": 102
    },
    {
      "epoch": 0.02579566489520511,
      "grad_norm": 9.0,
      "learning_rate": 1.0800000000000002e-05,
      "loss": 1.5255,
      "step": 108
    },
    {
      "epoch": 0.027228757389383174,
      "grad_norm": 5.34375,
      "learning_rate": 1.14e-05,
      "loss": 1.5375,
      "step": 114
    },
    {
      "epoch": 0.028661849883561234,
      "grad_norm": 4.625,
      "learning_rate": 1.2e-05,
      "loss": 1.4729,
      "step": 120
    },
    {
      "epoch": 0.030094942377739298,
      "grad_norm": 5.78125,
      "learning_rate": 1.2600000000000001e-05,
      "loss": 1.5446,
      "step": 126
    },
    {
      "epoch": 0.03152803487191736,
      "grad_norm": 5.15625,
      "learning_rate": 1.3200000000000002e-05,
      "loss": 1.6895,
      "step": 132
    },
    {
      "epoch": 0.03296112736609542,
      "grad_norm": 4.59375,
      "learning_rate": 1.38e-05,
      "loss": 1.6145,
      "step": 138
    },
    {
      "epoch": 0.03439421986027348,
      "grad_norm": 4.96875,
      "learning_rate": 1.4400000000000001e-05,
      "loss": 1.4316,
      "step": 144
    },
    {
      "epoch": 0.035827312354451545,
      "grad_norm": 4.71875,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 1.5619,
      "step": 150
    },
    {
      "epoch": 0.03726040484862961,
      "grad_norm": 7.9375,
      "learning_rate": 1.5600000000000003e-05,
      "loss": 1.6608,
      "step": 156
    },
    {
      "epoch": 0.038693497342807665,
      "grad_norm": 4.34375,
      "learning_rate": 1.62e-05,
      "loss": 1.6418,
      "step": 162
    },
    {
      "epoch": 0.04012658983698573,
      "grad_norm": 4.8125,
      "learning_rate": 1.6800000000000002e-05,
      "loss": 1.5532,
      "step": 168
    },
    {
      "epoch": 0.04155968233116379,
      "grad_norm": 7.90625,
      "learning_rate": 1.7400000000000003e-05,
      "loss": 1.6124,
      "step": 174
    },
    {
      "epoch": 0.042992774825341855,
      "grad_norm": 5.90625,
      "learning_rate": 1.8e-05,
      "loss": 1.5629,
      "step": 180
    },
    {
      "epoch": 0.04442586731951991,
      "grad_norm": 9.4375,
      "learning_rate": 1.86e-05,
      "loss": 1.5727,
      "step": 186
    },
    {
      "epoch": 0.045858959813697975,
      "grad_norm": 6.34375,
      "learning_rate": 1.9200000000000003e-05,
      "loss": 1.4866,
      "step": 192
    },
    {
      "epoch": 0.04729205230787604,
      "grad_norm": 10.9375,
      "learning_rate": 1.98e-05,
      "loss": 1.6203,
      "step": 198
    },
    {
      "epoch": 0.0487251448020541,
      "grad_norm": 5.46875,
      "learning_rate": 1.9999756307053947e-05,
      "loss": 1.6003,
      "step": 204
    },
    {
      "epoch": 0.05015823729623216,
      "grad_norm": 7.34375,
      "learning_rate": 1.9998476951563914e-05,
      "loss": 1.7795,
      "step": 210
    },
    {
      "epoch": 0.05159132979041022,
      "grad_norm": 5.03125,
      "learning_rate": 1.9996101150403543e-05,
      "loss": 1.6262,
      "step": 216
    },
    {
      "epoch": 0.053024422284588285,
      "grad_norm": 6.03125,
      "learning_rate": 1.999262916410621e-05,
      "loss": 1.5033,
      "step": 222
    },
    {
      "epoch": 0.05445751477876635,
      "grad_norm": 6.375,
      "learning_rate": 1.9988061373414342e-05,
      "loss": 1.528,
      "step": 228
    },
    {
      "epoch": 0.055890607272944405,
      "grad_norm": 5.375,
      "learning_rate": 1.9982398279237657e-05,
      "loss": 1.6706,
      "step": 234
    },
    {
      "epoch": 0.05732369976712247,
      "grad_norm": 5.3125,
      "learning_rate": 1.9975640502598243e-05,
      "loss": 1.8826,
      "step": 240
    },
    {
      "epoch": 0.05875679226130053,
      "grad_norm": 7.21875,
      "learning_rate": 1.9967788784562474e-05,
      "loss": 1.6844,
      "step": 246
    },
    {
      "epoch": 0.060189884755478595,
      "grad_norm": 14.0,
      "learning_rate": 1.9958843986159705e-05,
      "loss": 1.6681,
      "step": 252
    },
    {
      "epoch": 0.06162297724965665,
      "grad_norm": 5.3125,
      "learning_rate": 1.9948807088287884e-05,
      "loss": 1.5271,
      "step": 258
    },
    {
      "epoch": 0.06305606974383472,
      "grad_norm": 5.78125,
      "learning_rate": 1.9937679191605964e-05,
      "loss": 1.5941,
      "step": 264
    },
    {
      "epoch": 0.06448916223801278,
      "grad_norm": 7.75,
      "learning_rate": 1.9925461516413224e-05,
      "loss": 1.6754,
      "step": 270
    },
    {
      "epoch": 0.06592225473219084,
      "grad_norm": 5.03125,
      "learning_rate": 1.991215540251542e-05,
      "loss": 1.6616,
      "step": 276
    },
    {
      "epoch": 0.0673553472263689,
      "grad_norm": 5.46875,
      "learning_rate": 1.989776230907789e-05,
      "loss": 1.7207,
      "step": 282
    },
    {
      "epoch": 0.06878843972054696,
      "grad_norm": 4.84375,
      "learning_rate": 1.988228381446553e-05,
      "loss": 1.6092,
      "step": 288
    },
    {
      "epoch": 0.07022153221472502,
      "grad_norm": 15.625,
      "learning_rate": 1.9865721616069695e-05,
      "loss": 1.6828,
      "step": 294
    },
    {
      "epoch": 0.07165462470890309,
      "grad_norm": 7.125,
      "learning_rate": 1.9848077530122083e-05,
      "loss": 1.7341,
      "step": 300
    },
    {
      "epoch": 0.07308771720308115,
      "grad_norm": 10.625,
      "learning_rate": 1.9829353491495545e-05,
      "loss": 1.6181,
      "step": 306
    },
    {
      "epoch": 0.07452080969725922,
      "grad_norm": 4.75,
      "learning_rate": 1.9809551553491918e-05,
      "loss": 1.548,
      "step": 312
    },
    {
      "epoch": 0.07595390219143727,
      "grad_norm": 6.9375,
      "learning_rate": 1.9788673887616852e-05,
      "loss": 1.5703,
      "step": 318
    },
    {
      "epoch": 0.07738699468561533,
      "grad_norm": 6.71875,
      "learning_rate": 1.9766722783341682e-05,
      "loss": 1.7147,
      "step": 324
    },
    {
      "epoch": 0.0788200871797934,
      "grad_norm": 6.8125,
      "learning_rate": 1.9743700647852356e-05,
      "loss": 1.7598,
      "step": 330
    },
    {
      "epoch": 0.08025317967397146,
      "grad_norm": 5.0625,
      "learning_rate": 1.9719610005785466e-05,
      "loss": 1.7136,
      "step": 336
    },
    {
      "epoch": 0.08168627216814951,
      "grad_norm": 6.03125,
      "learning_rate": 1.9694453498951392e-05,
      "loss": 1.7161,
      "step": 342
    },
    {
      "epoch": 0.08311936466232758,
      "grad_norm": 7.34375,
      "learning_rate": 1.9668233886044597e-05,
      "loss": 1.6319,
      "step": 348
    },
    {
      "epoch": 0.08455245715650564,
      "grad_norm": 5.21875,
      "learning_rate": 1.96409540423411e-05,
      "loss": 1.5857,
      "step": 354
    },
    {
      "epoch": 0.08598554965068371,
      "grad_norm": 10.6875,
      "learning_rate": 1.961261695938319e-05,
      "loss": 1.7632,
      "step": 360
    },
    {
      "epoch": 0.08741864214486177,
      "grad_norm": 6.21875,
      "learning_rate": 1.9583225744651334e-05,
      "loss": 1.4205,
      "step": 366
    },
    {
      "epoch": 0.08885173463903982,
      "grad_norm": 5.875,
      "learning_rate": 1.9552783621223437e-05,
      "loss": 1.7812,
      "step": 372
    },
    {
      "epoch": 0.0902848271332179,
      "grad_norm": 4.46875,
      "learning_rate": 1.9521293927421388e-05,
      "loss": 1.5759,
      "step": 378
    },
    {
      "epoch": 0.09171791962739595,
      "grad_norm": 6.53125,
      "learning_rate": 1.9488760116444966e-05,
      "loss": 1.6537,
      "step": 384
    },
    {
      "epoch": 0.09315101212157402,
      "grad_norm": 10.8125,
      "learning_rate": 1.945518575599317e-05,
      "loss": 1.4973,
      "step": 390
    },
    {
      "epoch": 0.09458410461575208,
      "grad_norm": 4.1875,
      "learning_rate": 1.942057452787297e-05,
      "loss": 1.578,
      "step": 396
    },
    {
      "epoch": 0.09553949961187078,
      "eval_loss": 1.4027706384658813,
      "eval_runtime": 224.2305,
      "eval_samples_per_second": 3.791,
      "eval_steps_per_second": 3.791,
      "step": 400
    },
    {
      "epoch": 0.09601719710993013,
      "grad_norm": 3.875,
      "learning_rate": 1.938493022759556e-05,
      "loss": 1.6032,
      "step": 402
    },
    {
      "epoch": 0.0974502896041082,
      "grad_norm": 6.125,
      "learning_rate": 1.9348256763960146e-05,
      "loss": 1.7055,
      "step": 408
    },
    {
      "epoch": 0.09888338209828626,
      "grad_norm": 5.84375,
      "learning_rate": 1.9310558158625286e-05,
      "loss": 1.7454,
      "step": 414
    },
    {
      "epoch": 0.10031647459246432,
      "grad_norm": 7.0625,
      "learning_rate": 1.9271838545667876e-05,
      "loss": 1.7345,
      "step": 420
    },
    {
      "epoch": 0.10174956708664239,
      "grad_norm": 6.125,
      "learning_rate": 1.923210217112981e-05,
      "loss": 1.6099,
      "step": 426
    },
    {
      "epoch": 0.10318265958082044,
      "grad_norm": 4.59375,
      "learning_rate": 1.9191353392552346e-05,
      "loss": 1.652,
      "step": 432
    },
    {
      "epoch": 0.10461575207499851,
      "grad_norm": 5.96875,
      "learning_rate": 1.914959667849825e-05,
      "loss": 1.7092,
      "step": 438
    },
    {
      "epoch": 0.10604884456917657,
      "grad_norm": 6.4375,
      "learning_rate": 1.910683660806177e-05,
      "loss": 1.7545,
      "step": 444
    },
    {
      "epoch": 0.10748193706335463,
      "grad_norm": 10.4375,
      "learning_rate": 1.9063077870366504e-05,
      "loss": 1.5287,
      "step": 450
    },
    {
      "epoch": 0.1089150295575327,
      "grad_norm": 7.84375,
      "learning_rate": 1.901832526405114e-05,
      "loss": 1.7219,
      "step": 456
    },
    {
      "epoch": 0.11034812205171075,
      "grad_norm": 9.5625,
      "learning_rate": 1.8972583696743284e-05,
      "loss": 1.665,
      "step": 462
    },
    {
      "epoch": 0.11178121454588881,
      "grad_norm": 10.0625,
      "learning_rate": 1.892585818452126e-05,
      "loss": 1.6363,
      "step": 468
    },
    {
      "epoch": 0.11321430704006688,
      "grad_norm": 5.78125,
      "learning_rate": 1.8878153851364013e-05,
      "loss": 1.543,
      "step": 474
    },
    {
      "epoch": 0.11464739953424494,
      "grad_norm": 6.125,
      "learning_rate": 1.8829475928589272e-05,
      "loss": 1.5826,
      "step": 480
    },
    {
      "epoch": 0.11608049202842301,
      "grad_norm": 4.8125,
      "learning_rate": 1.8779829754279806e-05,
      "loss": 1.581,
      "step": 486
    },
    {
      "epoch": 0.11751358452260106,
      "grad_norm": 9.75,
      "learning_rate": 1.8729220772698096e-05,
      "loss": 1.5841,
      "step": 492
    },
    {
      "epoch": 0.11894667701677912,
      "grad_norm": 13.3125,
      "learning_rate": 1.8677654533689287e-05,
      "loss": 1.6944,
      "step": 498
    },
    {
      "epoch": 0.12037976951095719,
      "grad_norm": 4.96875,
      "learning_rate": 1.8625136692072577e-05,
      "loss": 1.6203,
      "step": 504
    },
    {
      "epoch": 0.12181286200513525,
      "grad_norm": 6.3125,
      "learning_rate": 1.8571673007021124e-05,
      "loss": 1.5639,
      "step": 510
    },
    {
      "epoch": 0.1232459544993133,
      "grad_norm": 5.5,
      "learning_rate": 1.851726934143048e-05,
      "loss": 1.6397,
      "step": 516
    },
    {
      "epoch": 0.12467904699349137,
      "grad_norm": 5.125,
      "learning_rate": 1.8461931661275642e-05,
      "loss": 1.7315,
      "step": 522
    },
    {
      "epoch": 0.12611213948766944,
      "grad_norm": 6.25,
      "learning_rate": 1.8405666034956842e-05,
      "loss": 1.7201,
      "step": 528
    },
    {
      "epoch": 0.1275452319818475,
      "grad_norm": 8.9375,
      "learning_rate": 1.8348478632634067e-05,
      "loss": 1.6047,
      "step": 534
    },
    {
      "epoch": 0.12897832447602556,
      "grad_norm": 46.25,
      "learning_rate": 1.8290375725550417e-05,
      "loss": 1.6949,
      "step": 540
    },
    {
      "epoch": 0.13041141697020361,
      "grad_norm": 5.9375,
      "learning_rate": 1.8231363685344422e-05,
      "loss": 1.7245,
      "step": 546
    },
    {
      "epoch": 0.13184450946438167,
      "grad_norm": 5.78125,
      "learning_rate": 1.8171448983351284e-05,
      "loss": 1.641,
      "step": 552
    },
    {
      "epoch": 0.13327760195855975,
      "grad_norm": 24.125,
      "learning_rate": 1.8110638189893267e-05,
      "loss": 1.6125,
      "step": 558
    },
    {
      "epoch": 0.1347106944527378,
      "grad_norm": 6.4375,
      "learning_rate": 1.804893797355914e-05,
      "loss": 1.6647,
      "step": 564
    },
    {
      "epoch": 0.13614378694691587,
      "grad_norm": 6.34375,
      "learning_rate": 1.798635510047293e-05,
      "loss": 1.7073,
      "step": 570
    },
    {
      "epoch": 0.13757687944109392,
      "grad_norm": 6.1875,
      "learning_rate": 1.792289643355191e-05,
      "loss": 1.6271,
      "step": 576
    },
    {
      "epoch": 0.13900997193527198,
      "grad_norm": 5.0625,
      "learning_rate": 1.785856893175402e-05,
      "loss": 1.6317,
      "step": 582
    },
    {
      "epoch": 0.14044306442945004,
      "grad_norm": 4.6875,
      "learning_rate": 1.7793379649314743e-05,
      "loss": 1.6578,
      "step": 588
    },
    {
      "epoch": 0.14187615692362812,
      "grad_norm": 4.84375,
      "learning_rate": 1.7727335734973512e-05,
      "loss": 1.6554,
      "step": 594
    },
    {
      "epoch": 0.14330924941780618,
      "grad_norm": 6.1875,
      "learning_rate": 1.766044443118978e-05,
      "loss": 1.5523,
      "step": 600
    },
    {
      "epoch": 0.14474234191198423,
      "grad_norm": 23.375,
      "learning_rate": 1.759271307334881e-05,
      "loss": 1.616,
      "step": 606
    },
    {
      "epoch": 0.1461754344061623,
      "grad_norm": 6.9375,
      "learning_rate": 1.7524149088957244e-05,
      "loss": 1.7729,
      "step": 612
    },
    {
      "epoch": 0.14760852690034035,
      "grad_norm": 10.25,
      "learning_rate": 1.7454759996828622e-05,
      "loss": 1.5922,
      "step": 618
    },
    {
      "epoch": 0.14904161939451843,
      "grad_norm": 7.21875,
      "learning_rate": 1.7384553406258842e-05,
      "loss": 1.583,
      "step": 624
    },
    {
      "epoch": 0.1504747118886965,
      "grad_norm": 6.9375,
      "learning_rate": 1.7313537016191706e-05,
      "loss": 1.6019,
      "step": 630
    },
    {
      "epoch": 0.15190780438287455,
      "grad_norm": 11.5,
      "learning_rate": 1.7241718614374678e-05,
      "loss": 1.6195,
      "step": 636
    },
    {
      "epoch": 0.1533408968770526,
      "grad_norm": 5.5,
      "learning_rate": 1.716910607650483e-05,
      "loss": 1.5012,
      "step": 642
    },
    {
      "epoch": 0.15477398937123066,
      "grad_norm": 6.71875,
      "learning_rate": 1.709570736536521e-05,
      "loss": 1.7686,
      "step": 648
    },
    {
      "epoch": 0.15620708186540874,
      "grad_norm": 5.71875,
      "learning_rate": 1.7021530529951627e-05,
      "loss": 1.7922,
      "step": 654
    },
    {
      "epoch": 0.1576401743595868,
      "grad_norm": 7.8125,
      "learning_rate": 1.6946583704589973e-05,
      "loss": 1.623,
      "step": 660
    },
    {
      "epoch": 0.15907326685376486,
      "grad_norm": 6.34375,
      "learning_rate": 1.6870875108044233e-05,
      "loss": 1.6039,
      "step": 666
    },
    {
      "epoch": 0.1605063593479429,
      "grad_norm": 6.46875,
      "learning_rate": 1.6794413042615168e-05,
      "loss": 1.6392,
      "step": 672
    },
    {
      "epoch": 0.16193945184212097,
      "grad_norm": 5.4375,
      "learning_rate": 1.6717205893229904e-05,
      "loss": 1.5683,
      "step": 678
    },
    {
      "epoch": 0.16337254433629902,
      "grad_norm": 4.78125,
      "learning_rate": 1.6639262126522417e-05,
      "loss": 1.6165,
      "step": 684
    },
    {
      "epoch": 0.1648056368304771,
      "grad_norm": 5.4375,
      "learning_rate": 1.6560590289905074e-05,
      "loss": 1.5341,
      "step": 690
    },
    {
      "epoch": 0.16623872932465517,
      "grad_norm": 5.25,
      "learning_rate": 1.6481199010631312e-05,
      "loss": 1.6573,
      "step": 696
    },
    {
      "epoch": 0.16767182181883322,
      "grad_norm": 5.21875,
      "learning_rate": 1.6401096994849558e-05,
      "loss": 1.5056,
      "step": 702
    },
    {
      "epoch": 0.16910491431301128,
      "grad_norm": 12.625,
      "learning_rate": 1.632029302664851e-05,
      "loss": 1.5337,
      "step": 708
    },
    {
      "epoch": 0.17053800680718934,
      "grad_norm": 4.28125,
      "learning_rate": 1.6238795967093865e-05,
      "loss": 1.5038,
      "step": 714
    },
    {
      "epoch": 0.17197109930136742,
      "grad_norm": 6.96875,
      "learning_rate": 1.6156614753256583e-05,
      "loss": 1.5587,
      "step": 720
    },
    {
      "epoch": 0.17340419179554548,
      "grad_norm": 4.90625,
      "learning_rate": 1.607375839723287e-05,
      "loss": 1.563,
      "step": 726
    },
    {
      "epoch": 0.17483728428972353,
      "grad_norm": 5.34375,
      "learning_rate": 1.599023598515586e-05,
      "loss": 1.6058,
      "step": 732
    },
    {
      "epoch": 0.1762703767839016,
      "grad_norm": 5.25,
      "learning_rate": 1.5906056676199256e-05,
      "loss": 1.7244,
      "step": 738
    },
    {
      "epoch": 0.17770346927807965,
      "grad_norm": 4.5,
      "learning_rate": 1.5821229701572897e-05,
      "loss": 1.6587,
      "step": 744
    },
    {
      "epoch": 0.17913656177225773,
      "grad_norm": 12.75,
      "learning_rate": 1.573576436351046e-05,
      "loss": 1.6018,
      "step": 750
    },
    {
      "epoch": 0.1805696542664358,
      "grad_norm": 6.0,
      "learning_rate": 1.564967003424938e-05,
      "loss": 1.6205,
      "step": 756
    },
    {
      "epoch": 0.18200274676061384,
      "grad_norm": 5.59375,
      "learning_rate": 1.556295615500305e-05,
      "loss": 1.6345,
      "step": 762
    },
    {
      "epoch": 0.1834358392547919,
      "grad_norm": 4.59375,
      "learning_rate": 1.5475632234925505e-05,
      "loss": 1.5226,
      "step": 768
    },
    {
      "epoch": 0.18486893174896996,
      "grad_norm": 4.78125,
      "learning_rate": 1.5387707850068633e-05,
      "loss": 1.6488,
      "step": 774
    },
    {
      "epoch": 0.18630202424314804,
      "grad_norm": 4.28125,
      "learning_rate": 1.529919264233205e-05,
      "loss": 1.5393,
      "step": 780
    },
    {
      "epoch": 0.1877351167373261,
      "grad_norm": 7.625,
      "learning_rate": 1.5210096318405768e-05,
      "loss": 1.5374,
      "step": 786
    },
    {
      "epoch": 0.18916820923150415,
      "grad_norm": 4.21875,
      "learning_rate": 1.5120428648705716e-05,
      "loss": 1.4963,
      "step": 792
    },
    {
      "epoch": 0.1906013017256822,
      "grad_norm": 4.25,
      "learning_rate": 1.5030199466302354e-05,
      "loss": 1.5828,
      "step": 798
    },
    {
      "epoch": 0.19107899922374155,
      "eval_loss": 1.3809266090393066,
      "eval_runtime": 223.0505,
      "eval_samples_per_second": 3.811,
      "eval_steps_per_second": 3.811,
      "step": 800
    },
    {
      "epoch": 0.19203439421986027,
      "grad_norm": 6.21875,
      "learning_rate": 1.493941866584231e-05,
      "loss": 1.5799,
      "step": 804
    },
    {
      "epoch": 0.19346748671403832,
      "grad_norm": 8.5,
      "learning_rate": 1.4848096202463373e-05,
      "loss": 1.6519,
      "step": 810
    },
    {
      "epoch": 0.1949005792082164,
      "grad_norm": 4.59375,
      "learning_rate": 1.4756242090702756e-05,
      "loss": 1.5897,
      "step": 816
    },
    {
      "epoch": 0.19633367170239446,
      "grad_norm": 5.75,
      "learning_rate": 1.4663866403398915e-05,
      "loss": 1.6454,
      "step": 822
    },
    {
      "epoch": 0.19776676419657252,
      "grad_norm": 4.1875,
      "learning_rate": 1.4570979270586944e-05,
      "loss": 1.5361,
      "step": 828
    },
    {
      "epoch": 0.19919985669075058,
      "grad_norm": 5.375,
      "learning_rate": 1.4477590878387697e-05,
      "loss": 1.5086,
      "step": 834
    },
    {
      "epoch": 0.20063294918492863,
      "grad_norm": 4.375,
      "learning_rate": 1.4383711467890776e-05,
      "loss": 1.6474,
      "step": 840
    },
    {
      "epoch": 0.20206604167910672,
      "grad_norm": 4.6875,
      "learning_rate": 1.4289351334031461e-05,
      "loss": 1.465,
      "step": 846
    },
    {
      "epoch": 0.20349913417328477,
      "grad_norm": 8.6875,
      "learning_rate": 1.4194520824461773e-05,
      "loss": 1.5312,
      "step": 852
    },
    {
      "epoch": 0.20493222666746283,
      "grad_norm": 5.53125,
      "learning_rate": 1.4099230338415728e-05,
      "loss": 1.4775,
      "step": 858
    },
    {
      "epoch": 0.2063653191616409,
      "grad_norm": 9.8125,
      "learning_rate": 1.4003490325568953e-05,
      "loss": 1.8343,
      "step": 864
    },
    {
      "epoch": 0.20779841165581894,
      "grad_norm": 8.0625,
      "learning_rate": 1.3907311284892737e-05,
      "loss": 1.537,
      "step": 870
    },
    {
      "epoch": 0.20923150414999703,
      "grad_norm": 6.3125,
      "learning_rate": 1.3810703763502744e-05,
      "loss": 1.7239,
      "step": 876
    },
    {
      "epoch": 0.21066459664417508,
      "grad_norm": 5.75,
      "learning_rate": 1.371367835550235e-05,
      "loss": 1.5176,
      "step": 882
    },
    {
      "epoch": 0.21209768913835314,
      "grad_norm": 4.65625,
      "learning_rate": 1.3616245700820922e-05,
      "loss": 1.641,
      "step": 888
    },
    {
      "epoch": 0.2135307816325312,
      "grad_norm": 4.0625,
      "learning_rate": 1.3518416484047018e-05,
      "loss": 1.5882,
      "step": 894
    },
    {
      "epoch": 0.21496387412670925,
      "grad_norm": 5.09375,
      "learning_rate": 1.342020143325669e-05,
      "loss": 1.6042,
      "step": 900
    },
    {
      "epoch": 0.2163969666208873,
      "grad_norm": 5.84375,
      "learning_rate": 1.3321611318837033e-05,
      "loss": 1.5516,
      "step": 906
    },
    {
      "epoch": 0.2178300591150654,
      "grad_norm": 6.15625,
      "learning_rate": 1.3222656952305113e-05,
      "loss": 1.5349,
      "step": 912
    },
    {
      "epoch": 0.21926315160924345,
      "grad_norm": 5.21875,
      "learning_rate": 1.3123349185122328e-05,
      "loss": 1.6652,
      "step": 918
    },
    {
      "epoch": 0.2206962441034215,
      "grad_norm": 17.25,
      "learning_rate": 1.3023698907504447e-05,
      "loss": 1.7149,
      "step": 924
    },
    {
      "epoch": 0.22212933659759956,
      "grad_norm": 6.8125,
      "learning_rate": 1.2923717047227368e-05,
      "loss": 1.6285,
      "step": 930
    },
    {
      "epoch": 0.22356242909177762,
      "grad_norm": 4.1875,
      "learning_rate": 1.2823414568428767e-05,
      "loss": 1.5982,
      "step": 936
    },
    {
      "epoch": 0.2249955215859557,
      "grad_norm": 5.8125,
      "learning_rate": 1.2722802470405744e-05,
      "loss": 1.5901,
      "step": 942
    },
    {
      "epoch": 0.22642861408013376,
      "grad_norm": 4.75,
      "learning_rate": 1.2621891786408648e-05,
      "loss": 1.5705,
      "step": 948
    },
    {
      "epoch": 0.22786170657431182,
      "grad_norm": 10.1875,
      "learning_rate": 1.252069358243114e-05,
      "loss": 1.5263,
      "step": 954
    },
    {
      "epoch": 0.22929479906848987,
      "grad_norm": 3.671875,
      "learning_rate": 1.2419218955996677e-05,
      "loss": 1.5622,
      "step": 960
    },
    {
      "epoch": 0.23072789156266793,
      "grad_norm": 4.625,
      "learning_rate": 1.2317479034941572e-05,
      "loss": 1.5984,
      "step": 966
    },
    {
      "epoch": 0.23216098405684601,
      "grad_norm": 7.21875,
      "learning_rate": 1.2215484976194675e-05,
      "loss": 1.6465,
      "step": 972
    },
    {
      "epoch": 0.23359407655102407,
      "grad_norm": 6.59375,
      "learning_rate": 1.211324796455389e-05,
      "loss": 1.705,
      "step": 978
    },
    {
      "epoch": 0.23502716904520213,
      "grad_norm": 5.96875,
      "learning_rate": 1.2010779211459649e-05,
      "loss": 1.5316,
      "step": 984
    },
    {
      "epoch": 0.23646026153938018,
      "grad_norm": 5.3125,
      "learning_rate": 1.190808995376545e-05,
      "loss": 1.4676,
      "step": 990
    },
    {
      "epoch": 0.23789335403355824,
      "grad_norm": 4.9375,
      "learning_rate": 1.1805191452505602e-05,
      "loss": 1.5319,
      "step": 996
    },
    {
      "epoch": 0.2393264465277363,
      "grad_norm": 5.625,
      "learning_rate": 1.1702094991660326e-05,
      "loss": 1.6112,
      "step": 1002
    },
    {
      "epoch": 0.24075953902191438,
      "grad_norm": 4.71875,
      "learning_rate": 1.159881187691835e-05,
      "loss": 1.6341,
      "step": 1008
    },
    {
      "epoch": 0.24219263151609244,
      "grad_norm": 4.3125,
      "learning_rate": 1.1495353434437098e-05,
      "loss": 1.4623,
      "step": 1014
    },
    {
      "epoch": 0.2436257240102705,
      "grad_norm": 19.625,
      "learning_rate": 1.1391731009600655e-05,
      "loss": 1.4166,
      "step": 1020
    },
    {
      "epoch": 0.24505881650444855,
      "grad_norm": 4.0625,
      "learning_rate": 1.128795596577563e-05,
      "loss": 1.5813,
      "step": 1026
    },
    {
      "epoch": 0.2464919089986266,
      "grad_norm": 6.25,
      "learning_rate": 1.1184039683065014e-05,
      "loss": 1.5772,
      "step": 1032
    },
    {
      "epoch": 0.2479250014928047,
      "grad_norm": 5.53125,
      "learning_rate": 1.1079993557060228e-05,
      "loss": 1.401,
      "step": 1038
    },
    {
      "epoch": 0.24935809398698275,
      "grad_norm": 6.65625,
      "learning_rate": 1.0975828997591496e-05,
      "loss": 1.6248,
      "step": 1044
    },
    {
      "epoch": 0.2507911864811608,
      "grad_norm": 856.0,
      "learning_rate": 1.0871557427476585e-05,
      "loss": 1.775,
      "step": 1050
    },
    {
      "epoch": 0.2522242789753389,
      "grad_norm": 4.1875,
      "learning_rate": 1.0767190281268187e-05,
      "loss": 1.586,
      "step": 1056
    },
    {
      "epoch": 0.25365737146951695,
      "grad_norm": 3.53125,
      "learning_rate": 1.0662739004000005e-05,
      "loss": 1.5397,
      "step": 1062
    },
    {
      "epoch": 0.255090463963695,
      "grad_norm": 4.125,
      "learning_rate": 1.055821504993164e-05,
      "loss": 1.8712,
      "step": 1068
    },
    {
      "epoch": 0.25652355645787306,
      "grad_norm": 5.1875,
      "learning_rate": 1.0453629881292537e-05,
      "loss": 1.5357,
      "step": 1074
    },
    {
      "epoch": 0.2579566489520511,
      "grad_norm": 3.921875,
      "learning_rate": 1.0348994967025012e-05,
      "loss": 1.4033,
      "step": 1080
    },
    {
      "epoch": 0.25938974144622917,
      "grad_norm": 5.3125,
      "learning_rate": 1.0244321781526533e-05,
      "loss": 1.5611,
      "step": 1086
    },
    {
      "epoch": 0.26082283394040723,
      "grad_norm": 4.8125,
      "learning_rate": 1.0139621803391454e-05,
      "loss": 1.577,
      "step": 1092
    },
    {
      "epoch": 0.2622559264345853,
      "grad_norm": 5.46875,
      "learning_rate": 1.0034906514152239e-05,
      "loss": 1.5149,
      "step": 1098
    },
    {
      "epoch": 0.26368901892876334,
      "grad_norm": 6.4375,
      "learning_rate": 9.930187397020385e-06,
      "loss": 1.5796,
      "step": 1104
    },
    {
      "epoch": 0.2651221114229414,
      "grad_norm": 4.28125,
      "learning_rate": 9.825475935627165e-06,
      "loss": 1.5702,
      "step": 1110
    },
    {
      "epoch": 0.2665552039171195,
      "grad_norm": 5.34375,
      "learning_rate": 9.720783612764314e-06,
      "loss": 1.5354,
      "step": 1116
    },
    {
      "epoch": 0.26798829641129757,
      "grad_norm": 4.375,
      "learning_rate": 9.616121909124801e-06,
      "loss": 1.4122,
      "step": 1122
    },
    {
      "epoch": 0.2694213889054756,
      "grad_norm": 5.46875,
      "learning_rate": 9.511502302043867e-06,
      "loss": 1.6959,
      "step": 1128
    },
    {
      "epoch": 0.2708544813996537,
      "grad_norm": 8.4375,
      "learning_rate": 9.406936264240386e-06,
      "loss": 1.5493,
      "step": 1134
    },
    {
      "epoch": 0.27228757389383174,
      "grad_norm": 5.46875,
      "learning_rate": 9.302435262558748e-06,
      "loss": 1.4156,
      "step": 1140
    },
    {
      "epoch": 0.2737206663880098,
      "grad_norm": 720.0,
      "learning_rate": 9.198010756711413e-06,
      "loss": 1.567,
      "step": 1146
    },
    {
      "epoch": 0.27515375888218785,
      "grad_norm": 3.875,
      "learning_rate": 9.093674198022201e-06,
      "loss": 1.3814,
      "step": 1152
    },
    {
      "epoch": 0.2765868513763659,
      "grad_norm": 3.671875,
      "learning_rate": 8.989437028170537e-06,
      "loss": 1.4261,
      "step": 1158
    },
    {
      "epoch": 0.27801994387054396,
      "grad_norm": 10.375,
      "learning_rate": 8.885310677936746e-06,
      "loss": 1.506,
      "step": 1164
    },
    {
      "epoch": 0.279453036364722,
      "grad_norm": 3.46875,
      "learning_rate": 8.781306565948528e-06,
      "loss": 1.3967,
      "step": 1170
    },
    {
      "epoch": 0.2808861288589001,
      "grad_norm": 3.984375,
      "learning_rate": 8.677436097428775e-06,
      "loss": 1.5761,
      "step": 1176
    },
    {
      "epoch": 0.2823192213530782,
      "grad_norm": 3.484375,
      "learning_rate": 8.573710662944884e-06,
      "loss": 1.5428,
      "step": 1182
    },
    {
      "epoch": 0.28375231384725624,
      "grad_norm": 6.25,
      "learning_rate": 8.47014163715962e-06,
      "loss": 1.5426,
      "step": 1188
    },
    {
      "epoch": 0.2851854063414343,
      "grad_norm": 6.25,
      "learning_rate": 8.366740377583781e-06,
      "loss": 1.503,
      "step": 1194
    },
    {
      "epoch": 0.28661849883561236,
      "grad_norm": 3.828125,
      "learning_rate": 8.263518223330698e-06,
      "loss": 1.4355,
      "step": 1200
    },
    {
      "epoch": 0.28661849883561236,
      "eval_loss": 1.315157413482666,
      "eval_runtime": 223.8181,
      "eval_samples_per_second": 3.798,
      "eval_steps_per_second": 3.798,
      "step": 1200
    },
    {
      "epoch": 0.2880515913297904,
      "grad_norm": 5.625,
      "learning_rate": 8.1604864938728e-06,
      "loss": 1.4389,
      "step": 1206
    },
    {
      "epoch": 0.28948468382396847,
      "grad_norm": 5.0625,
      "learning_rate": 8.057656487800283e-06,
      "loss": 1.5346,
      "step": 1212
    },
    {
      "epoch": 0.2909177763181465,
      "grad_norm": 4.21875,
      "learning_rate": 7.955039481582098e-06,
      "loss": 1.4492,
      "step": 1218
    },
    {
      "epoch": 0.2923508688123246,
      "grad_norm": 4.9375,
      "learning_rate": 7.852646728329368e-06,
      "loss": 1.4305,
      "step": 1224
    },
    {
      "epoch": 0.29378396130650264,
      "grad_norm": 4.9375,
      "learning_rate": 7.750489456561351e-06,
      "loss": 1.607,
      "step": 1230
    },
    {
      "epoch": 0.2952170538006807,
      "grad_norm": 4.90625,
      "learning_rate": 7.6485788689741e-06,
      "loss": 1.3777,
      "step": 1236
    },
    {
      "epoch": 0.2966501462948588,
      "grad_norm": 5.875,
      "learning_rate": 7.546926141211975e-06,
      "loss": 1.5751,
      "step": 1242
    },
    {
      "epoch": 0.29808323878903686,
      "grad_norm": 4.8125,
      "learning_rate": 7.445542420642097e-06,
      "loss": 1.5106,
      "step": 1248
    },
    {
      "epoch": 0.2995163312832149,
      "grad_norm": 4.875,
      "learning_rate": 7.344438825131912e-06,
      "loss": 1.5982,
      "step": 1254
    },
    {
      "epoch": 0.300949423777393,
      "grad_norm": 5.09375,
      "learning_rate": 7.243626441830009e-06,
      "loss": 1.5328,
      "step": 1260
    },
    {
      "epoch": 0.30238251627157103,
      "grad_norm": 4.09375,
      "learning_rate": 7.143116325950266e-06,
      "loss": 1.6138,
      "step": 1266
    },
    {
      "epoch": 0.3038156087657491,
      "grad_norm": 3.8125,
      "learning_rate": 7.042919499559538e-06,
      "loss": 1.4547,
      "step": 1272
    },
    {
      "epoch": 0.30524870125992715,
      "grad_norm": 4.1875,
      "learning_rate": 6.943046950368944e-06,
      "loss": 1.4393,
      "step": 1278
    },
    {
      "epoch": 0.3066817937541052,
      "grad_norm": 5.34375,
      "learning_rate": 6.843509630528977e-06,
      "loss": 1.4009,
      "step": 1284
    },
    {
      "epoch": 0.30811488624828326,
      "grad_norm": 5.125,
      "learning_rate": 6.744318455428436e-06,
      "loss": 1.5134,
      "step": 1290
    },
    {
      "epoch": 0.3095479787424613,
      "grad_norm": 4.96875,
      "learning_rate": 6.645484302497452e-06,
      "loss": 1.5411,
      "step": 1296
    },
    {
      "epoch": 0.3109810712366394,
      "grad_norm": 4.9375,
      "learning_rate": 6.547018010014654e-06,
      "loss": 1.5058,
      "step": 1302
    },
    {
      "epoch": 0.3124141637308175,
      "grad_norm": 3.59375,
      "learning_rate": 6.448930375918632e-06,
      "loss": 1.4026,
      "step": 1308
    },
    {
      "epoch": 0.31384725622499554,
      "grad_norm": 4.78125,
      "learning_rate": 6.351232156623803e-06,
      "loss": 1.3993,
      "step": 1314
    },
    {
      "epoch": 0.3152803487191736,
      "grad_norm": 4.21875,
      "learning_rate": 6.25393406584088e-06,
      "loss": 1.6574,
      "step": 1320
    },
    {
      "epoch": 0.31671344121335165,
      "grad_norm": 4.40625,
      "learning_rate": 6.157046773401964e-06,
      "loss": 1.5233,
      "step": 1326
    },
    {
      "epoch": 0.3181465337075297,
      "grad_norm": 5.25,
      "learning_rate": 6.06058090409049e-06,
      "loss": 1.5095,
      "step": 1332
    },
    {
      "epoch": 0.31957962620170777,
      "grad_norm": 4.625,
      "learning_rate": 5.9645470364761e-06,
      "loss": 1.3797,
      "step": 1338
    },
    {
      "epoch": 0.3210127186958858,
      "grad_norm": 5.84375,
      "learning_rate": 5.868955701754584e-06,
      "loss": 1.6089,
      "step": 1344
    },
    {
      "epoch": 0.3224458111900639,
      "grad_norm": 3.71875,
      "learning_rate": 5.773817382593008e-06,
      "loss": 1.4297,
      "step": 1350
    },
    {
      "epoch": 0.32387890368424194,
      "grad_norm": 3.578125,
      "learning_rate": 5.679142511980176e-06,
      "loss": 1.327,
      "step": 1356
    },
    {
      "epoch": 0.32531199617842,
      "grad_norm": 4.6875,
      "learning_rate": 5.584941472082549e-06,
      "loss": 1.4878,
      "step": 1362
    },
    {
      "epoch": 0.32674508867259805,
      "grad_norm": 5.125,
      "learning_rate": 5.491224593105695e-06,
      "loss": 1.4593,
      "step": 1368
    },
    {
      "epoch": 0.32817818116677616,
      "grad_norm": 7.1875,
      "learning_rate": 5.398002152161484e-06,
      "loss": 1.5287,
      "step": 1374
    },
    {
      "epoch": 0.3296112736609542,
      "grad_norm": 5.71875,
      "learning_rate": 5.305284372141095e-06,
      "loss": 1.4808,
      "step": 1380
    },
    {
      "epoch": 0.3310443661551323,
      "grad_norm": 4.09375,
      "learning_rate": 5.213081420593933e-06,
      "loss": 1.4244,
      "step": 1386
    },
    {
      "epoch": 0.33247745864931033,
      "grad_norm": 9.5,
      "learning_rate": 5.121403408612672e-06,
      "loss": 1.5213,
      "step": 1392
    },
    {
      "epoch": 0.3339105511434884,
      "grad_norm": 5.09375,
      "learning_rate": 5.030260389724447e-06,
      "loss": 1.4455,
      "step": 1398
    },
    {
      "epoch": 0.33534364363766644,
      "grad_norm": 6.6875,
      "learning_rate": 4.939662358788364e-06,
      "loss": 1.5983,
      "step": 1404
    },
    {
      "epoch": 0.3367767361318445,
      "grad_norm": 4.96875,
      "learning_rate": 4.849619250899458e-06,
      "loss": 1.3544,
      "step": 1410
    },
    {
      "epoch": 0.33820982862602256,
      "grad_norm": 4.65625,
      "learning_rate": 4.76014094029921e-06,
      "loss": 1.4412,
      "step": 1416
    },
    {
      "epoch": 0.3396429211202006,
      "grad_norm": 6.40625,
      "learning_rate": 4.671237239292699e-06,
      "loss": 1.4463,
      "step": 1422
    },
    {
      "epoch": 0.34107601361437867,
      "grad_norm": 5.25,
      "learning_rate": 4.582917897172603e-06,
      "loss": 1.5306,
      "step": 1428
    },
    {
      "epoch": 0.3425091061085568,
      "grad_norm": 4.40625,
      "learning_rate": 4.495192599150045e-06,
      "loss": 1.5532,
      "step": 1434
    },
    {
      "epoch": 0.34394219860273484,
      "grad_norm": 5.15625,
      "learning_rate": 4.408070965292534e-06,
      "loss": 1.4818,
      "step": 1440
    },
    {
      "epoch": 0.3453752910969129,
      "grad_norm": 4.125,
      "learning_rate": 4.321562549468991e-06,
      "loss": 1.4144,
      "step": 1446
    },
    {
      "epoch": 0.34680838359109095,
      "grad_norm": 4.28125,
      "learning_rate": 4.235676838302069e-06,
      "loss": 1.4173,
      "step": 1452
    },
    {
      "epoch": 0.348241476085269,
      "grad_norm": 8.5,
      "learning_rate": 4.150423250127846e-06,
      "loss": 1.4121,
      "step": 1458
    },
    {
      "epoch": 0.34967456857944706,
      "grad_norm": 5.90625,
      "learning_rate": 4.065811133962987e-06,
      "loss": 1.4121,
      "step": 1464
    },
    {
      "epoch": 0.3511076610736251,
      "grad_norm": 4.625,
      "learning_rate": 3.981849768479516e-06,
      "loss": 1.3973,
      "step": 1470
    },
    {
      "epoch": 0.3525407535678032,
      "grad_norm": 5.1875,
      "learning_rate": 3.898548360987325e-06,
      "loss": 1.4554,
      "step": 1476
    },
    {
      "epoch": 0.35397384606198123,
      "grad_norm": 5.40625,
      "learning_rate": 3.81591604642446e-06,
      "loss": 1.4958,
      "step": 1482
    },
    {
      "epoch": 0.3554069385561593,
      "grad_norm": 5.28125,
      "learning_rate": 3.7339618863553983e-06,
      "loss": 1.4843,
      "step": 1488
    },
    {
      "epoch": 0.35684003105033735,
      "grad_norm": 5.96875,
      "learning_rate": 3.6526948679773256e-06,
      "loss": 1.6051,
      "step": 1494
    },
    {
      "epoch": 0.35827312354451546,
      "grad_norm": 3.6875,
      "learning_rate": 3.5721239031346067e-06,
      "loss": 1.4176,
      "step": 1500
    },
    {
      "epoch": 0.3597062160386935,
      "grad_norm": 4.375,
      "learning_rate": 3.492257827341492e-06,
      "loss": 1.4049,
      "step": 1506
    },
    {
      "epoch": 0.3611393085328716,
      "grad_norm": 3.71875,
      "learning_rate": 3.4131053988131947e-06,
      "loss": 1.5823,
      "step": 1512
    },
    {
      "epoch": 0.36257240102704963,
      "grad_norm": 6.0,
      "learning_rate": 3.3346752975054763e-06,
      "loss": 1.4469,
      "step": 1518
    },
    {
      "epoch": 0.3640054935212277,
      "grad_norm": 4.21875,
      "learning_rate": 3.2569761241627694e-06,
      "loss": 1.4373,
      "step": 1524
    },
    {
      "epoch": 0.36543858601540574,
      "grad_norm": 6.03125,
      "learning_rate": 3.1800163993750166e-06,
      "loss": 1.4823,
      "step": 1530
    },
    {
      "epoch": 0.3668716785095838,
      "grad_norm": 4.625,
      "learning_rate": 3.103804562643302e-06,
      "loss": 1.4585,
      "step": 1536
    },
    {
      "epoch": 0.36830477100376185,
      "grad_norm": 4.28125,
      "learning_rate": 3.028348971454356e-06,
      "loss": 1.4233,
      "step": 1542
    },
    {
      "epoch": 0.3697378634979399,
      "grad_norm": 14.625,
      "learning_rate": 2.953657900364053e-06,
      "loss": 1.4869,
      "step": 1548
    },
    {
      "epoch": 0.37117095599211797,
      "grad_norm": 4.1875,
      "learning_rate": 2.8797395400900362e-06,
      "loss": 1.5315,
      "step": 1554
    },
    {
      "epoch": 0.3726040484862961,
      "grad_norm": 4.125,
      "learning_rate": 2.8066019966134907e-06,
      "loss": 1.4887,
      "step": 1560
    },
    {
      "epoch": 0.37403714098047414,
      "grad_norm": 3.796875,
      "learning_rate": 2.7342532902902418e-06,
      "loss": 1.4533,
      "step": 1566
    },
    {
      "epoch": 0.3754702334746522,
      "grad_norm": 4.03125,
      "learning_rate": 2.6627013549712355e-06,
      "loss": 1.4017,
      "step": 1572
    },
    {
      "epoch": 0.37690332596883025,
      "grad_norm": 6.84375,
      "learning_rate": 2.5919540371325005e-06,
      "loss": 1.3971,
      "step": 1578
    },
    {
      "epoch": 0.3783364184630083,
      "grad_norm": 5.5625,
      "learning_rate": 2.522019095014683e-06,
      "loss": 1.5576,
      "step": 1584
    },
    {
      "epoch": 0.37976951095718636,
      "grad_norm": 10.875,
      "learning_rate": 2.45290419777228e-06,
      "loss": 1.4719,
      "step": 1590
    },
    {
      "epoch": 0.3812026034513644,
      "grad_norm": 5.15625,
      "learning_rate": 2.3846169246326345e-06,
      "loss": 1.4618,
      "step": 1596
    },
    {
      "epoch": 0.3821579984474831,
      "eval_loss": 1.2876688241958618,
      "eval_runtime": 226.2654,
      "eval_samples_per_second": 3.757,
      "eval_steps_per_second": 3.757,
      "step": 1600
    }
  ],
  "logging_steps": 6,
  "max_steps": 2000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 400,
  "total_flos": 2.9553261973639004e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}