{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 25.0,
  "eval_steps": 1000,
  "global_step": 375,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.67,
      "learning_rate": 9.36e-07,
      "loss": 8.5683,
      "step": 25
    },
    {
      "epoch": 3.33,
      "learning_rate": 8.693333333333333e-07,
      "loss": 7.5028,
      "step": 50
    },
    {
      "epoch": 5.0,
      "learning_rate": 8.026666666666667e-07,
      "loss": 7.293,
      "step": 75
    },
    {
      "epoch": 6.67,
      "learning_rate": 7.359999999999999e-07,
      "loss": 7.2316,
      "step": 100
    },
    {
      "epoch": 8.33,
      "learning_rate": 6.693333333333333e-07,
      "loss": 7.1945,
      "step": 125
    },
    {
      "epoch": 10.0,
      "learning_rate": 6.026666666666667e-07,
      "loss": 7.178,
      "step": 150
    },
    {
      "epoch": 11.67,
      "learning_rate": 5.36e-07,
      "loss": 7.176,
      "step": 175
    },
    {
      "epoch": 13.33,
      "learning_rate": 4.693333333333333e-07,
      "loss": 7.1478,
      "step": 200
    },
    {
      "epoch": 15.0,
      "learning_rate": 4.0799999999999995e-07,
      "loss": 7.1358,
      "step": 225
    },
    {
      "epoch": 16.67,
      "learning_rate": 3.413333333333333e-07,
      "loss": 7.154,
      "step": 250
    },
    {
      "epoch": 18.33,
      "learning_rate": 2.7466666666666664e-07,
      "loss": 7.1035,
      "step": 275
    },
    {
      "epoch": 20.0,
      "learning_rate": 2.0799999999999998e-07,
      "loss": 7.1441,
      "step": 300
    },
    {
      "epoch": 21.67,
      "learning_rate": 1.4133333333333333e-07,
      "loss": 7.1239,
      "step": 325
    },
    {
      "epoch": 23.33,
      "learning_rate": 7.466666666666667e-08,
      "loss": 7.1274,
      "step": 350
    },
    {
      "epoch": 25.0,
      "learning_rate": 8e-09,
      "loss": 7.1136,
      "step": 375
    },
    {
      "epoch": 25.0,
      "step": 375,
      "total_flos": 0.0,
      "train_loss": 7.2796097819010415,
      "train_runtime": 437.882,
      "train_samples_per_second": 1.713,
      "train_steps_per_second": 0.856
    }
  ],
  "logging_steps": 25,
  "max_steps": 375,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 25,
  "save_steps": 500,
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}