{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.0365296803652968,
  "global_step": 400,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 5e-05,
      "loss": 2.6714,
      "step": 10
    },
    {
      "epoch": 0.0,
      "learning_rate": 0.0001,
      "loss": 2.5361,
      "step": 20
    },
    {
      "epoch": 0.0,
      "learning_rate": 0.00015000000000000001,
      "loss": 2.3465,
      "step": 30
    },
    {
      "epoch": 0.0,
      "learning_rate": 0.0002,
      "loss": 2.0844,
      "step": 40
    },
    {
      "epoch": 0.0,
      "learning_rate": 0.0001999145758387301,
      "loss": 2.0421,
      "step": 50
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.000199658449300667,
      "loss": 1.9894,
      "step": 60
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0001992320579737045,
      "loss": 1.9617,
      "step": 70
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00019863613034027224,
      "loss": 2.0536,
      "step": 80
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00019787168453273544,
      "loss": 1.9324,
      "step": 90
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00019694002659393305,
      "loss": 1.985,
      "step": 100
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0001958427482458253,
      "loss": 1.9952,
      "step": 110
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00019458172417006347,
      "loss": 2.007,
      "step": 120
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0001931591088051279,
      "loss": 1.983,
      "step": 130
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00019157733266550575,
      "loss": 1.9472,
      "step": 140
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0001898390981891979,
      "loss": 2.0466,
      "step": 150
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0001879473751206489,
      "loss": 2.008,
      "step": 160
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00018590539543698854,
      "loss": 2.0157,
      "step": 170
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00018371664782625287,
      "loss": 1.9199,
      "step": 180
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0001813848717270195,
      "loss": 2.04,
      "step": 190
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00017891405093963938,
      "loss": 1.9081,
      "step": 200
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00017630840681998066,
      "loss": 1.9743,
      "step": 210
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00017357239106731317,
      "loss": 1.9165,
      "step": 220
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00017071067811865476,
      "loss": 1.9622,
      "step": 230
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00016772815716257412,
      "loss": 1.9589,
      "step": 240
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00016462992378609407,
      "loss": 1.9725,
      "step": 250
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0001614212712689668,
      "loss": 1.9992,
      "step": 260
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00015810768154019385,
      "loss": 1.9791,
      "step": 270
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00015469481581224272,
      "loss": 1.9638,
      "step": 280
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00015118850490896012,
      "loss": 1.9842,
      "step": 290
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00014759473930370736,
      "loss": 1.9316,
      "step": 300
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00014391965888473703,
      "loss": 1.9995,
      "step": 310
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00014016954246529696,
      "loss": 1.9569,
      "step": 320
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00013635079705638298,
      "loss": 1.9623,
      "step": 330
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00013246994692046836,
      "loss": 1.9055,
      "step": 340
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00012853362242491053,
      "loss": 1.9084,
      "step": 350
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00012454854871407994,
      "loss": 2.0149,
      "step": 360
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00012052153421956342,
      "loss": 1.953,
      "step": 370
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00011645945902807341,
      "loss": 2.0303,
      "step": 380
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00011236926312693479,
      "loss": 1.9762,
      "step": 390
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00010825793454723325,
      "loss": 1.9585,
      "step": 400
    }
  ],
  "max_steps": 800,
  "num_train_epochs": 1,
  "total_flos": 1.637251048912128e+16,
  "trial_name": null,
  "trial_params": null
}