{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.8125,
  "global_step": 4500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.31,
      "learning_rate": 1.7916666666666667e-05,
      "loss": 1.247,
      "step": 500
    },
    {
      "epoch": 0.62,
      "learning_rate": 1.5833333333333333e-05,
      "loss": 0.9325,
      "step": 1000
    },
    {
      "epoch": 0.94,
      "learning_rate": 1.375e-05,
      "loss": 0.815,
      "step": 1500
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.6791346073150635,
      "eval_runtime": 4932.0243,
      "eval_samples_per_second": 3.287,
      "eval_steps_per_second": 0.411,
      "step": 1600
    },
    {
      "epoch": 1.25,
      "learning_rate": 1.1666666666666668e-05,
      "loss": 0.7479,
      "step": 2000
    },
    {
      "epoch": 1.56,
      "learning_rate": 9.583333333333335e-06,
      "loss": 0.7055,
      "step": 2500
    },
    {
      "epoch": 1.88,
      "learning_rate": 7.500000000000001e-06,
      "loss": 0.6726,
      "step": 3000
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.5686362981796265,
      "eval_runtime": 5197.6249,
      "eval_samples_per_second": 3.12,
      "eval_steps_per_second": 0.39,
      "step": 3200
    },
    {
      "epoch": 2.19,
      "learning_rate": 5.416666666666667e-06,
      "loss": 0.6568,
      "step": 3500
    },
    {
      "epoch": 2.5,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.6281,
      "step": 4000
    },
    {
      "epoch": 2.81,
      "learning_rate": 1.25e-06,
      "loss": 0.6213,
      "step": 4500
    }
  ],
  "max_steps": 4800,
  "num_train_epochs": 3,
  "total_flos": 4660672199238000.0,
  "trial_name": null,
  "trial_params": null
}