{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.31456103008251984,
  "global_step": 12000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01,
      "learning_rate": 4.9978809321803e-05,
      "loss": 0.8279,
      "step": 500
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.9915273210799395e-05,
      "loss": 0.8793,
      "step": 1000
    },
    {
      "epoch": 0.04,
      "learning_rate": 4.980949937685176e-05,
      "loss": 0.8954,
      "step": 1500
    },
    {
      "epoch": 0.05,
      "learning_rate": 4.9661667133502234e-05,
      "loss": 0.9086,
      "step": 2000
    },
    {
      "epoch": 0.07,
      "learning_rate": 4.94720270939905e-05,
      "loss": 0.9014,
      "step": 2500
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.9240900746400607e-05,
      "loss": 0.9305,
      "step": 3000
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.896926506742532e-05,
      "loss": 0.9258,
      "step": 3500
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.8656491982587736e-05,
      "loss": 0.9271,
      "step": 4000
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.830361512904031e-05,
      "loss": 0.9397,
      "step": 4500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.7911232722770785e-05,
      "loss": 0.952,
      "step": 5000
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.748000995172327e-05,
      "loss": 0.9503,
      "step": 5500
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.701263005707722e-05,
      "loss": 0.9474,
      "step": 6000
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.650613184376064e-05,
      "loss": 0.9509,
      "step": 6500
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.596317526891097e-05,
      "loss": 0.9727,
      "step": 7000
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.5384680781972446e-05,
      "loss": 0.9671,
      "step": 7500
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.477162907818597e-05,
      "loss": 0.9754,
      "step": 8000
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.4126385306983914e-05,
      "loss": 0.9587,
      "step": 8500
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.344745753937664e-05,
      "loss": 0.9729,
      "step": 9000
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.273725664086777e-05,
      "loss": 0.9858,
      "step": 9500
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.199698658255298e-05,
      "loss": 0.9861,
      "step": 10000
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.1227902310399e-05,
      "loss": 0.9804,
      "step": 10500
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.043130761779127e-05,
      "loss": 0.9862,
      "step": 11000
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.9610223632393205e-05,
      "loss": 0.9832,
      "step": 11500
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.876275184846879e-05,
      "loss": 0.996,
      "step": 12000
    }
  ],
  "max_steps": 38148,
  "num_train_epochs": 1,
  "total_flos": 1.327204485033984e+16,
  "trial_name": null,
  "trial_params": null
}