{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 11.428571428571429,
  "global_step": 500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.23,
      "learning_rate": 0.0002,
      "loss": 0.9795,
      "step": 10
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0002,
      "loss": 0.2923,
      "step": 20
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0002,
      "loss": 0.1384,
      "step": 30
    },
    {
      "epoch": 0.91,
      "learning_rate": 0.0002,
      "loss": 0.0773,
      "step": 40
    },
    {
      "epoch": 1.14,
      "learning_rate": 0.0002,
      "loss": 0.0578,
      "step": 50
    },
    {
      "epoch": 1.37,
      "learning_rate": 0.0002,
      "loss": 0.0502,
      "step": 60
    },
    {
      "epoch": 1.6,
      "learning_rate": 0.0002,
      "loss": 0.0534,
      "step": 70
    },
    {
      "epoch": 1.83,
      "learning_rate": 0.0002,
      "loss": 0.0466,
      "step": 80
    },
    {
      "epoch": 2.06,
      "learning_rate": 0.0002,
      "loss": 0.0504,
      "step": 90
    },
    {
      "epoch": 2.29,
      "learning_rate": 0.0002,
      "loss": 0.0387,
      "step": 100
    },
    {
      "epoch": 2.51,
      "learning_rate": 0.0002,
      "loss": 0.0402,
      "step": 110
    },
    {
      "epoch": 2.74,
      "learning_rate": 0.0002,
      "loss": 0.0384,
      "step": 120
    },
    {
      "epoch": 2.97,
      "learning_rate": 0.0002,
      "loss": 0.0399,
      "step": 130
    },
    {
      "epoch": 3.2,
      "learning_rate": 0.0002,
      "loss": 0.0366,
      "step": 140
    },
    {
      "epoch": 3.43,
      "learning_rate": 0.0002,
      "loss": 0.0293,
      "step": 150
    },
    {
      "epoch": 3.66,
      "learning_rate": 0.0002,
      "loss": 0.0352,
      "step": 160
    },
    {
      "epoch": 3.89,
      "learning_rate": 0.0002,
      "loss": 0.033,
      "step": 170
    },
    {
      "epoch": 4.11,
      "learning_rate": 0.0002,
      "loss": 0.0333,
      "step": 180
    },
    {
      "epoch": 4.34,
      "learning_rate": 0.0002,
      "loss": 0.0269,
      "step": 190
    },
    {
      "epoch": 4.57,
      "learning_rate": 0.0002,
      "loss": 0.0298,
      "step": 200
    },
    {
      "epoch": 4.8,
      "learning_rate": 0.0002,
      "loss": 0.025,
      "step": 210
    },
    {
      "epoch": 5.03,
      "learning_rate": 0.0002,
      "loss": 0.0253,
      "step": 220
    },
    {
      "epoch": 5.26,
      "learning_rate": 0.0002,
      "loss": 0.0221,
      "step": 230
    },
    {
      "epoch": 5.49,
      "learning_rate": 0.0002,
      "loss": 0.0224,
      "step": 240
    },
    {
      "epoch": 5.71,
      "learning_rate": 0.0002,
      "loss": 0.0202,
      "step": 250
    },
    {
      "epoch": 5.94,
      "learning_rate": 0.0002,
      "loss": 0.0291,
      "step": 260
    },
    {
      "epoch": 6.17,
      "learning_rate": 0.0002,
      "loss": 0.0231,
      "step": 270
    },
    {
      "epoch": 6.4,
      "learning_rate": 0.0002,
      "loss": 0.0196,
      "step": 280
    },
    {
      "epoch": 6.63,
      "learning_rate": 0.0002,
      "loss": 0.0223,
      "step": 290
    },
    {
      "epoch": 6.86,
      "learning_rate": 0.0002,
      "loss": 0.0198,
      "step": 300
    },
    {
      "epoch": 7.09,
      "learning_rate": 0.0002,
      "loss": 0.0191,
      "step": 310
    },
    {
      "epoch": 7.31,
      "learning_rate": 0.0002,
      "loss": 0.0192,
      "step": 320
    },
    {
      "epoch": 7.54,
      "learning_rate": 0.0002,
      "loss": 0.0183,
      "step": 330
    },
    {
      "epoch": 7.77,
      "learning_rate": 0.0002,
      "loss": 0.0207,
      "step": 340
    },
    {
      "epoch": 8.0,
      "learning_rate": 0.0002,
      "loss": 0.02,
      "step": 350
    },
    {
      "epoch": 8.23,
      "learning_rate": 0.0002,
      "loss": 0.018,
      "step": 360
    },
    {
      "epoch": 8.46,
      "learning_rate": 0.0002,
      "loss": 0.0162,
      "step": 370
    },
    {
      "epoch": 8.69,
      "learning_rate": 0.0002,
      "loss": 0.0185,
      "step": 380
    },
    {
      "epoch": 8.91,
      "learning_rate": 0.0002,
      "loss": 0.0194,
      "step": 390
    },
    {
      "epoch": 9.14,
      "learning_rate": 0.0002,
      "loss": 0.015,
      "step": 400
    },
    {
      "epoch": 9.37,
      "learning_rate": 0.0002,
      "loss": 0.0176,
      "step": 410
    },
    {
      "epoch": 9.6,
      "learning_rate": 0.0002,
      "loss": 0.0165,
      "step": 420
    },
    {
      "epoch": 9.83,
      "learning_rate": 0.0002,
      "loss": 0.0163,
      "step": 430
    },
    {
      "epoch": 10.06,
      "learning_rate": 0.0002,
      "loss": 0.0165,
      "step": 440
    },
    {
      "epoch": 10.29,
      "learning_rate": 0.0002,
      "loss": 0.0163,
      "step": 450
    },
    {
      "epoch": 10.51,
      "learning_rate": 0.0002,
      "loss": 0.0164,
      "step": 460
    },
    {
      "epoch": 10.74,
      "learning_rate": 0.0002,
      "loss": 0.0157,
      "step": 470
    },
    {
      "epoch": 10.97,
      "learning_rate": 0.0002,
      "loss": 0.016,
      "step": 480
    },
    {
      "epoch": 11.2,
      "learning_rate": 0.0002,
      "loss": 0.0171,
      "step": 490
    },
    {
      "epoch": 11.43,
      "learning_rate": 0.0002,
      "loss": 0.0148,
      "step": 500
    }
  ],
  "max_steps": 500,
  "num_train_epochs": 12,
  "total_flos": 8.4635406041088e+16,
  "trial_name": null,
  "trial_params": null
}