{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.07317630916990624,
  "eval_steps": 5,
  "global_step": 20,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003658815458495312,
      "grad_norm": 1.3045363426208496,
      "learning_rate": 1e-05,
      "loss": 1.971,
      "step": 1
    },
    {
      "epoch": 0.003658815458495312,
      "eval_loss": 1.951581358909607,
      "eval_runtime": 97.2535,
      "eval_samples_per_second": 4.74,
      "eval_steps_per_second": 2.375,
      "step": 1
    },
    {
      "epoch": 0.007317630916990624,
      "grad_norm": 1.3143073320388794,
      "learning_rate": 2e-05,
      "loss": 1.9539,
      "step": 2
    },
    {
      "epoch": 0.010976446375485937,
      "grad_norm": 1.2895530462265015,
      "learning_rate": 3e-05,
      "loss": 1.8415,
      "step": 3
    },
    {
      "epoch": 0.014635261833981249,
      "grad_norm": 1.3930530548095703,
      "learning_rate": 4e-05,
      "loss": 1.9403,
      "step": 4
    },
    {
      "epoch": 0.01829407729247656,
      "grad_norm": 1.2894622087478638,
      "learning_rate": 5e-05,
      "loss": 1.8708,
      "step": 5
    },
    {
      "epoch": 0.01829407729247656,
      "eval_loss": 1.80782151222229,
      "eval_runtime": 11.7546,
      "eval_samples_per_second": 39.219,
      "eval_steps_per_second": 19.652,
      "step": 5
    },
    {
      "epoch": 0.021952892750971873,
      "grad_norm": 1.3519341945648193,
      "learning_rate": 6e-05,
      "loss": 1.7675,
      "step": 6
    },
    {
      "epoch": 0.025611708209467184,
      "grad_norm": 1.5123194456100464,
      "learning_rate": 7e-05,
      "loss": 1.6918,
      "step": 7
    },
    {
      "epoch": 0.029270523667962497,
      "grad_norm": 1.5415948629379272,
      "learning_rate": 8e-05,
      "loss": 1.6018,
      "step": 8
    },
    {
      "epoch": 0.03292933912645781,
      "grad_norm": 1.5197887420654297,
      "learning_rate": 9e-05,
      "loss": 1.4925,
      "step": 9
    },
    {
      "epoch": 0.03658815458495312,
      "grad_norm": 1.3055245876312256,
      "learning_rate": 0.0001,
      "loss": 1.4177,
      "step": 10
    },
    {
      "epoch": 0.03658815458495312,
      "eval_loss": 1.3090875148773193,
      "eval_runtime": 11.7787,
      "eval_samples_per_second": 39.138,
      "eval_steps_per_second": 19.612,
      "step": 10
    },
    {
      "epoch": 0.04024697004344843,
      "grad_norm": 1.3785911798477173,
      "learning_rate": 9.755282581475769e-05,
      "loss": 1.3677,
      "step": 11
    },
    {
      "epoch": 0.043905785501943746,
      "grad_norm": 1.3619410991668701,
      "learning_rate": 9.045084971874738e-05,
      "loss": 1.1551,
      "step": 12
    },
    {
      "epoch": 0.04756460096043906,
      "grad_norm": 1.5594295263290405,
      "learning_rate": 7.938926261462366e-05,
      "loss": 1.1575,
      "step": 13
    },
    {
      "epoch": 0.05122341641893437,
      "grad_norm": 1.627646803855896,
      "learning_rate": 6.545084971874738e-05,
      "loss": 1.1252,
      "step": 14
    },
    {
      "epoch": 0.05488223187742968,
      "grad_norm": 1.5937222242355347,
      "learning_rate": 5e-05,
      "loss": 1.177,
      "step": 15
    },
    {
      "epoch": 0.05488223187742968,
      "eval_loss": 1.0867087841033936,
      "eval_runtime": 11.7623,
      "eval_samples_per_second": 39.193,
      "eval_steps_per_second": 19.639,
      "step": 15
    },
    {
      "epoch": 0.058541047335924995,
      "grad_norm": 1.4047224521636963,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 1.121,
      "step": 16
    },
    {
      "epoch": 0.06219986279442031,
      "grad_norm": 1.4101364612579346,
      "learning_rate": 2.061073738537635e-05,
      "loss": 1.138,
      "step": 17
    },
    {
      "epoch": 0.06585867825291562,
      "grad_norm": 1.18840754032135,
      "learning_rate": 9.549150281252633e-06,
      "loss": 1.0061,
      "step": 18
    },
    {
      "epoch": 0.06951749371141093,
      "grad_norm": 1.0608042478561401,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 1.044,
      "step": 19
    },
    {
      "epoch": 0.07317630916990624,
      "grad_norm": 1.103515625,
      "learning_rate": 0.0,
      "loss": 1.0507,
      "step": 20
    },
    {
      "epoch": 0.07317630916990624,
      "eval_loss": 1.0364336967468262,
      "eval_runtime": 11.7584,
      "eval_samples_per_second": 39.206,
      "eval_steps_per_second": 19.646,
      "step": 20
    }
  ],
  "logging_steps": 1,
  "max_steps": 20,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.52887313301504e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}