{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 46302,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01,
      "learning_rate": 0.0025,
      "loss": 6.1558,
      "step": 500
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.005,
      "loss": 4.891,
      "step": 1000
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.004944814798463645,
      "loss": 4.3187,
      "step": 1500
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.004889629596927288,
      "loss": 4.0557,
      "step": 2000
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.004834444395390932,
      "loss": 3.9101,
      "step": 2500
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.004779259193854576,
      "loss": 3.8112,
      "step": 3000
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00472407399231822,
      "loss": 3.7468,
      "step": 3500
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.004668888790781864,
      "loss": 3.6894,
      "step": 4000
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0046137035892455085,
      "loss": 3.6476,
      "step": 4500
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.004558518387709152,
      "loss": 3.6159,
      "step": 5000
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.004503333186172796,
      "loss": 3.5868,
      "step": 5500
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00444814798463644,
      "loss": 3.5591,
      "step": 6000
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.004392962783100084,
      "loss": 3.5347,
      "step": 6500
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.004337777581563728,
      "loss": 3.515,
      "step": 7000
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0042825923800273715,
      "loss": 3.4965,
      "step": 7500
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.004227407178491016,
      "loss": 3.4824,
      "step": 8000
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00417222197695466,
      "loss": 3.4681,
      "step": 8500
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.004117036775418304,
      "loss": 3.4506,
      "step": 9000
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.004061851573881948,
      "loss": 3.4438,
      "step": 9500
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.004006666372345592,
      "loss": 3.4277,
      "step": 10000
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.003951481170809235,
      "loss": 3.4096,
      "step": 10500
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00389629596927288,
      "loss": 3.4064,
      "step": 11000
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0038411107677365237,
      "loss": 3.3917,
      "step": 11500
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.003785925566200168,
      "loss": 3.3817,
      "step": 12000
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0037307403646638115,
      "loss": 3.3771,
      "step": 12500
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.003675555163127456,
      "loss": 3.3711,
      "step": 13000
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0036203699615910997,
      "loss": 3.3564,
      "step": 13500
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.003565184760054744,
      "loss": 3.3457,
      "step": 14000
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.003509999558518388,
      "loss": 3.3417,
      "step": 14500
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0034548143569820317,
      "loss": 3.3381,
      "step": 15000
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.003399629155445676,
      "loss": 3.3267,
      "step": 15500
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0033444439539093195,
      "loss": 3.3211,
      "step": 16000
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.003289258752372964,
      "loss": 3.3143,
      "step": 16500
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0032340735508366077,
      "loss": 3.3111,
      "step": 17000
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.003178888349300252,
      "loss": 3.3028,
      "step": 17500
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0031237031477638955,
      "loss": 3.2986,
      "step": 18000
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0030685179462275397,
      "loss": 3.2882,
      "step": 18500
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0030133327446911834,
      "loss": 3.2841,
      "step": 19000
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.002958147543154828,
      "loss": 3.2856,
      "step": 19500
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.002902962341618471,
      "loss": 3.2793,
      "step": 20000
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0028477771400821157,
      "loss": 3.2692,
      "step": 20500
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00279259193854576,
      "loss": 3.2682,
      "step": 21000
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0027374067370094035,
      "loss": 3.2577,
      "step": 21500
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0026822215354730477,
      "loss": 3.2555,
      "step": 22000
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0026270363339366914,
      "loss": 3.2485,
      "step": 22500
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.002571851132400336,
      "loss": 3.2393,
      "step": 23000
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0025166659308639796,
      "loss": 3.2336,
      "step": 23500
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0024614807293276237,
      "loss": 3.2298,
      "step": 24000
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.002406295527791268,
      "loss": 3.2306,
      "step": 24500
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0023511103262549115,
      "loss": 3.2263,
      "step": 25000
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0022959251247185557,
      "loss": 3.2168,
      "step": 25500
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0022407399231821994,
      "loss": 3.2132,
      "step": 26000
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0021855547216458435,
      "loss": 3.2078,
      "step": 26500
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0021303695201094876,
      "loss": 3.2056,
      "step": 27000
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.0020751843185731313,
      "loss": 3.2043,
      "step": 27500
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0020199991170367754,
      "loss": 3.1978,
      "step": 28000
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.0019648139155004195,
      "loss": 3.1933,
      "step": 28500
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.0019096287139640635,
      "loss": 3.1942,
      "step": 29000
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0018544435124277074,
      "loss": 3.1849,
      "step": 29500
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.0017992583108913513,
      "loss": 3.1805,
      "step": 30000
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0017440731093549956,
      "loss": 3.176,
      "step": 30500
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0016888879078186395,
      "loss": 3.1668,
      "step": 31000
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.0016337027062822834,
      "loss": 3.1643,
      "step": 31500
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0015785175047459273,
      "loss": 3.1624,
      "step": 32000
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.0015233323032095715,
      "loss": 3.1581,
      "step": 32500
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.0014681471016732154,
      "loss": 3.15,
      "step": 33000
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.0014129619001368593,
      "loss": 3.1471,
      "step": 33500
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0013577766986005034,
      "loss": 3.1483,
      "step": 34000
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0013025914970641473,
      "loss": 3.1404,
      "step": 34500
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.0012474062955277914,
      "loss": 3.1312,
      "step": 35000
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.0011922210939914353,
      "loss": 3.133,
      "step": 35500
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.0011370358924550792,
      "loss": 3.1267,
      "step": 36000
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.0010818506909187234,
      "loss": 3.1242,
      "step": 36500
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.0010266654893823673,
      "loss": 3.1176,
      "step": 37000
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.0009714802878460112,
      "loss": 3.1104,
      "step": 37500
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.0009162950863096552,
      "loss": 3.1077,
      "step": 38000
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.0008611098847732993,
      "loss": 3.1033,
      "step": 38500
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.0008059246832369432,
      "loss": 3.0973,
      "step": 39000
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.0007507394817005872,
      "loss": 3.0969,
      "step": 39500
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.0006955542801642311,
      "loss": 3.0919,
      "step": 40000
    },
    {
      "epoch": 0.87,
      "learning_rate": 0.0006403690786278752,
      "loss": 3.0814,
      "step": 40500
    },
    {
      "epoch": 0.89,
      "learning_rate": 0.0005851838770915192,
      "loss": 3.0843,
      "step": 41000
    },
    {
      "epoch": 0.9,
      "learning_rate": 0.0005299986755551632,
      "loss": 3.0756,
      "step": 41500
    },
    {
      "epoch": 0.91,
      "learning_rate": 0.0004748134740188071,
      "loss": 3.0765,
      "step": 42000
    },
    {
      "epoch": 0.92,
      "learning_rate": 0.0004196282724824511,
      "loss": 3.0672,
      "step": 42500
    },
    {
      "epoch": 0.93,
      "learning_rate": 0.00036444307094609513,
      "loss": 3.0666,
      "step": 43000
    },
    {
      "epoch": 0.94,
      "learning_rate": 0.0003092578694097391,
      "loss": 3.0646,
      "step": 43500
    },
    {
      "epoch": 0.95,
      "learning_rate": 0.00025407266787338305,
      "loss": 3.0544,
      "step": 44000
    },
    {
      "epoch": 0.96,
      "learning_rate": 0.00019888746633702707,
      "loss": 3.0552,
      "step": 44500
    },
    {
      "epoch": 0.97,
      "learning_rate": 0.00014370226480067106,
      "loss": 3.0548,
      "step": 45000
    },
    {
      "epoch": 0.98,
      "learning_rate": 8.851706326431504e-05,
      "loss": 3.0448,
      "step": 45500
    },
    {
      "epoch": 0.99,
      "learning_rate": 3.333186172795903e-05,
      "loss": 3.0407,
      "step": 46000
    },
    {
      "epoch": 1.0,
      "step": 46302,
      "total_flos": 1.5485880137668362e+18,
      "train_loss": 3.3394907157594433,
      "train_runtime": 176655.7796,
      "train_samples_per_second": 16.775,
      "train_steps_per_second": 0.262
    }
  ],
  "logging_steps": 500,
  "max_steps": 46302,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5000,
  "total_flos": 1.5485880137668362e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}