{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 10.0,
  "eval_steps": 500,
  "global_step": 20,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.5,
      "grad_norm": 173.0,
      "learning_rate": 0.0001,
      "loss": 45.5656,
      "step": 1
    },
    {
      "epoch": 1.0,
      "eval_loss": 16.504554748535156,
      "eval_runtime": 0.2461,
      "eval_samples_per_second": 40.635,
      "eval_steps_per_second": 4.063,
      "step": 2
    },
    {
      "epoch": 2.0,
      "eval_loss": 14.199999809265137,
      "eval_runtime": 0.2394,
      "eval_samples_per_second": 41.776,
      "eval_steps_per_second": 4.178,
      "step": 4
    },
    {
      "epoch": 2.5,
      "grad_norm": 31.5,
      "learning_rate": 0.00018660254037844388,
      "loss": 35.6654,
      "step": 5
    },
    {
      "epoch": 3.0,
      "eval_loss": 12.994392395019531,
      "eval_runtime": 0.2412,
      "eval_samples_per_second": 41.452,
      "eval_steps_per_second": 4.145,
      "step": 6
    },
    {
      "epoch": 4.0,
      "eval_loss": 11.569496154785156,
      "eval_runtime": 0.2326,
      "eval_samples_per_second": 42.992,
      "eval_steps_per_second": 4.299,
      "step": 8
    },
    {
      "epoch": 5.0,
      "grad_norm": 10.5,
      "learning_rate": 0.00011736481776669306,
      "loss": 22.2461,
      "step": 10
    },
    {
      "epoch": 5.0,
      "eval_loss": 10.306487083435059,
      "eval_runtime": 0.2322,
      "eval_samples_per_second": 43.073,
      "eval_steps_per_second": 4.307,
      "step": 10
    },
    {
      "epoch": 6.0,
      "eval_loss": 9.36452579498291,
      "eval_runtime": 0.2332,
      "eval_samples_per_second": 42.887,
      "eval_steps_per_second": 4.289,
      "step": 12
    },
    {
      "epoch": 7.0,
      "eval_loss": 8.907111167907715,
      "eval_runtime": 0.2345,
      "eval_samples_per_second": 42.648,
      "eval_steps_per_second": 4.265,
      "step": 14
    },
    {
      "epoch": 7.5,
      "grad_norm": 4.5,
      "learning_rate": 3.5721239031346066e-05,
      "loss": 19.7508,
      "step": 15
    },
    {
      "epoch": 8.0,
      "eval_loss": 8.693410873413086,
      "eval_runtime": 0.2425,
      "eval_samples_per_second": 41.229,
      "eval_steps_per_second": 4.123,
      "step": 16
    },
    {
      "epoch": 9.0,
      "eval_loss": 8.628682136535645,
      "eval_runtime": 0.2394,
      "eval_samples_per_second": 41.765,
      "eval_steps_per_second": 4.177,
      "step": 18
    },
    {
      "epoch": 10.0,
      "grad_norm": 4.125,
      "learning_rate": 0.0,
      "loss": 19.172,
      "step": 20
    },
    {
      "epoch": 10.0,
      "eval_loss": 8.61988639831543,
      "eval_runtime": 0.232,
      "eval_samples_per_second": 43.094,
      "eval_steps_per_second": 4.309,
      "step": 20
    },
    {
      "epoch": 10.0,
      "step": 20,
      "total_flos": 6.098355666236211e+16,
      "train_loss": 24.70357437133789,
      "train_runtime": 50.9898,
      "train_samples_per_second": 21.769,
      "train_steps_per_second": 0.392
    }
  ],
  "logging_steps": 5,
  "max_steps": 20,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 100,
  "total_flos": 6.098355666236211e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}