{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 20.0,
  "global_step": 18160,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "learning_rate": 1.9003303964757713e-05,
      "loss": 1.3504,
      "step": 908
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.9396927356719971,
      "eval_runtime": 40.3444,
      "eval_samples_per_second": 80.011,
      "eval_steps_per_second": 2.503,
      "step": 908
    },
    {
      "epoch": 2.0,
      "learning_rate": 1.800330396475771e-05,
      "loss": 0.952,
      "step": 1816
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.7900779247283936,
      "eval_runtime": 40.474,
      "eval_samples_per_second": 79.755,
      "eval_steps_per_second": 2.495,
      "step": 1816
    },
    {
      "epoch": 3.0,
      "learning_rate": 1.700330396475771e-05,
      "loss": 0.8225,
      "step": 2724
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.7042744755744934,
      "eval_runtime": 40.4219,
      "eval_samples_per_second": 79.858,
      "eval_steps_per_second": 2.499,
      "step": 2724
    },
    {
      "epoch": 4.0,
      "learning_rate": 1.600330396475771e-05,
      "loss": 0.7475,
      "step": 3632
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.6635274291038513,
      "eval_runtime": 40.4218,
      "eval_samples_per_second": 79.858,
      "eval_steps_per_second": 2.499,
      "step": 3632
    },
    {
      "epoch": 5.0,
      "learning_rate": 1.5003303964757709e-05,
      "loss": 0.6945,
      "step": 4540
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.6002705693244934,
      "eval_runtime": 40.5407,
      "eval_samples_per_second": 79.624,
      "eval_steps_per_second": 2.491,
      "step": 4540
    },
    {
      "epoch": 6.0,
      "learning_rate": 1.4003303964757711e-05,
      "loss": 0.6558,
      "step": 5448
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.5814478993415833,
      "eval_runtime": 40.4802,
      "eval_samples_per_second": 79.743,
      "eval_steps_per_second": 2.495,
      "step": 5448
    },
    {
      "epoch": 7.0,
      "learning_rate": 1.3003303964757709e-05,
      "loss": 0.6179,
      "step": 6356
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.530373215675354,
      "eval_runtime": 40.4721,
      "eval_samples_per_second": 79.759,
      "eval_steps_per_second": 2.496,
      "step": 6356
    },
    {
      "epoch": 8.0,
      "learning_rate": 1.2004405286343613e-05,
      "loss": 0.5939,
      "step": 7264
    },
    {
      "epoch": 8.0,
      "eval_loss": 0.5254124402999878,
      "eval_runtime": 40.4437,
      "eval_samples_per_second": 79.815,
      "eval_steps_per_second": 2.497,
      "step": 7264
    },
    {
      "epoch": 9.0,
      "learning_rate": 1.1004405286343614e-05,
      "loss": 0.5724,
      "step": 8172
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.5123583078384399,
      "eval_runtime": 40.4461,
      "eval_samples_per_second": 79.81,
      "eval_steps_per_second": 2.497,
      "step": 8172
    },
    {
      "epoch": 10.0,
      "learning_rate": 1.0005506607929516e-05,
      "loss": 0.5518,
      "step": 9080
    },
    {
      "epoch": 10.0,
      "eval_loss": 0.5051878094673157,
      "eval_runtime": 40.5153,
      "eval_samples_per_second": 79.674,
      "eval_steps_per_second": 2.493,
      "step": 9080
    },
    {
      "epoch": 11.0,
      "learning_rate": 9.005506607929516e-06,
      "loss": 0.5374,
      "step": 9988
    },
    {
      "epoch": 11.0,
      "eval_loss": 0.48619189858436584,
      "eval_runtime": 40.4854,
      "eval_samples_per_second": 79.732,
      "eval_steps_per_second": 2.495,
      "step": 9988
    },
    {
      "epoch": 12.0,
      "learning_rate": 8.006607929515418e-06,
      "loss": 0.5257,
      "step": 10896
    },
    {
      "epoch": 12.0,
      "eval_loss": 0.4822216033935547,
      "eval_runtime": 40.4555,
      "eval_samples_per_second": 79.791,
      "eval_steps_per_second": 2.497,
      "step": 10896
    },
    {
      "epoch": 13.0,
      "learning_rate": 7.006607929515419e-06,
      "loss": 0.5109,
      "step": 11804
    },
    {
      "epoch": 13.0,
      "eval_loss": 0.4707971215248108,
      "eval_runtime": 40.4351,
      "eval_samples_per_second": 79.832,
      "eval_steps_per_second": 2.498,
      "step": 11804
    },
    {
      "epoch": 14.0,
      "learning_rate": 6.006607929515419e-06,
      "loss": 0.4991,
      "step": 12712
    },
    {
      "epoch": 14.0,
      "eval_loss": 0.4686879813671112,
      "eval_runtime": 40.4561,
      "eval_samples_per_second": 79.79,
      "eval_steps_per_second": 2.497,
      "step": 12712
    },
    {
      "epoch": 15.0,
      "learning_rate": 5.0066079295154195e-06,
      "loss": 0.4966,
      "step": 13620
    },
    {
      "epoch": 15.0,
      "eval_loss": 0.4615265130996704,
      "eval_runtime": 40.492,
      "eval_samples_per_second": 79.719,
      "eval_steps_per_second": 2.494,
      "step": 13620
    },
    {
      "epoch": 16.0,
      "learning_rate": 4.0077092511013225e-06,
      "loss": 0.4877,
      "step": 14528
    },
    {
      "epoch": 16.0,
      "eval_loss": 0.45428407192230225,
      "eval_runtime": 40.5187,
      "eval_samples_per_second": 79.667,
      "eval_steps_per_second": 2.493,
      "step": 14528
    },
    {
      "epoch": 17.0,
      "learning_rate": 3.007709251101322e-06,
      "loss": 0.4837,
      "step": 15436
    },
    {
      "epoch": 17.0,
      "eval_loss": 0.4501075744628906,
      "eval_runtime": 40.541,
      "eval_samples_per_second": 79.623,
      "eval_steps_per_second": 2.491,
      "step": 15436
    },
    {
      "epoch": 18.0,
      "learning_rate": 2.0077092511013217e-06,
      "loss": 0.4788,
      "step": 16344
    },
    {
      "epoch": 18.0,
      "eval_loss": 0.44279614090919495,
      "eval_runtime": 40.6464,
      "eval_samples_per_second": 79.417,
      "eval_steps_per_second": 2.485,
      "step": 16344
    },
    {
      "epoch": 19.0,
      "learning_rate": 1.0088105726872247e-06,
      "loss": 0.4746,
      "step": 17252
    },
    {
      "epoch": 19.0,
      "eval_loss": 0.4437817931175232,
      "eval_runtime": 40.5435,
      "eval_samples_per_second": 79.618,
      "eval_steps_per_second": 2.491,
      "step": 17252
    },
    {
      "epoch": 20.0,
      "learning_rate": 8.81057268722467e-09,
      "loss": 0.4758,
      "step": 18160
    },
    {
      "epoch": 20.0,
      "eval_loss": 0.44726473093032837,
      "eval_runtime": 40.5882,
      "eval_samples_per_second": 79.531,
      "eval_steps_per_second": 2.488,
      "step": 18160
    }
  ],
  "max_steps": 18160,
  "num_train_epochs": 20,
  "total_flos": 3.822589659829248e+16,
  "trial_name": null,
  "trial_params": null
}