{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 24468,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.06,
      "learning_rate": 1.959130292627105e-05,
      "loss": 2.9595,
      "step": 500
    },
    {
      "epoch": 0.12,
      "learning_rate": 1.91826058525421e-05,
      "loss": 2.1419,
      "step": 1000
    },
    {
      "epoch": 0.18,
      "learning_rate": 1.8773908778813146e-05,
      "loss": 2.0185,
      "step": 1500
    },
    {
      "epoch": 0.25,
      "learning_rate": 1.8365211705084193e-05,
      "loss": 1.9147,
      "step": 2000
    },
    {
      "epoch": 0.31,
      "learning_rate": 1.7956514631355243e-05,
      "loss": 1.8633,
      "step": 2500
    },
    {
      "epoch": 0.37,
      "learning_rate": 1.754781755762629e-05,
      "loss": 1.8148,
      "step": 3000
    },
    {
      "epoch": 0.43,
      "learning_rate": 1.7139120483897337e-05,
      "loss": 1.766,
      "step": 3500
    },
    {
      "epoch": 0.49,
      "learning_rate": 1.6730423410168384e-05,
      "loss": 1.7029,
      "step": 4000
    },
    {
      "epoch": 0.55,
      "learning_rate": 1.632172633643943e-05,
      "loss": 1.7337,
      "step": 4500
    },
    {
      "epoch": 0.61,
      "learning_rate": 1.591302926271048e-05,
      "loss": 1.6863,
      "step": 5000
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.550433218898153e-05,
      "loss": 1.6743,
      "step": 5500
    },
    {
      "epoch": 0.74,
      "learning_rate": 1.5095635115252575e-05,
      "loss": 1.6564,
      "step": 6000
    },
    {
      "epoch": 0.8,
      "learning_rate": 1.4686938041523624e-05,
      "loss": 1.6279,
      "step": 6500
    },
    {
      "epoch": 0.86,
      "learning_rate": 1.4278240967794673e-05,
      "loss": 1.6191,
      "step": 7000
    },
    {
      "epoch": 0.92,
      "learning_rate": 1.386954389406572e-05,
      "loss": 1.6086,
      "step": 7500
    },
    {
      "epoch": 0.98,
      "learning_rate": 1.3460846820336768e-05,
      "loss": 1.5927,
      "step": 8000
    },
    {
      "epoch": 1.0,
      "eval_loss": 1.7891443967819214,
      "eval_runtime": 225.6477,
      "eval_samples_per_second": 52.866,
      "eval_steps_per_second": 3.306,
      "step": 8156
    },
    {
      "epoch": 1.04,
      "learning_rate": 1.3052149746607815e-05,
      "loss": 1.372,
      "step": 8500
    },
    {
      "epoch": 1.1,
      "learning_rate": 1.2643452672878864e-05,
      "loss": 1.3563,
      "step": 9000
    },
    {
      "epoch": 1.16,
      "learning_rate": 1.223475559914991e-05,
      "loss": 1.3781,
      "step": 9500
    },
    {
      "epoch": 1.23,
      "learning_rate": 1.1826058525420958e-05,
      "loss": 1.3473,
      "step": 10000
    },
    {
      "epoch": 1.29,
      "learning_rate": 1.1417361451692007e-05,
      "loss": 1.3391,
      "step": 10500
    },
    {
      "epoch": 1.35,
      "learning_rate": 1.1008664377963054e-05,
      "loss": 1.34,
      "step": 11000
    },
    {
      "epoch": 1.41,
      "learning_rate": 1.0599967304234102e-05,
      "loss": 1.3342,
      "step": 11500
    },
    {
      "epoch": 1.47,
      "learning_rate": 1.0191270230505151e-05,
      "loss": 1.3505,
      "step": 12000
    },
    {
      "epoch": 1.53,
      "learning_rate": 9.782573156776198e-06,
      "loss": 1.3317,
      "step": 12500
    },
    {
      "epoch": 1.59,
      "learning_rate": 9.373876083047247e-06,
      "loss": 1.3303,
      "step": 13000
    },
    {
      "epoch": 1.66,
      "learning_rate": 8.965179009318295e-06,
      "loss": 1.3233,
      "step": 13500
    },
    {
      "epoch": 1.72,
      "learning_rate": 8.556481935589342e-06,
      "loss": 1.3253,
      "step": 14000
    },
    {
      "epoch": 1.78,
      "learning_rate": 8.147784861860389e-06,
      "loss": 1.3028,
      "step": 14500
    },
    {
      "epoch": 1.84,
      "learning_rate": 7.739087788131438e-06,
      "loss": 1.3087,
      "step": 15000
    },
    {
      "epoch": 1.9,
      "learning_rate": 7.330390714402486e-06,
      "loss": 1.3263,
      "step": 15500
    },
    {
      "epoch": 1.96,
      "learning_rate": 6.9216936406735334e-06,
      "loss": 1.3008,
      "step": 16000
    },
    {
      "epoch": 2.0,
      "eval_loss": 1.7874523401260376,
      "eval_runtime": 220.1897,
      "eval_samples_per_second": 54.176,
      "eval_steps_per_second": 3.388,
      "step": 16312
    },
    {
      "epoch": 2.02,
      "learning_rate": 6.512996566944581e-06,
      "loss": 1.2294,
      "step": 16500
    },
    {
      "epoch": 2.08,
      "learning_rate": 6.104299493215628e-06,
      "loss": 1.0807,
      "step": 17000
    },
    {
      "epoch": 2.15,
      "learning_rate": 5.695602419486677e-06,
      "loss": 1.1054,
      "step": 17500
    },
    {
      "epoch": 2.21,
      "learning_rate": 5.286905345757725e-06,
      "loss": 1.0896,
      "step": 18000
    },
    {
      "epoch": 2.27,
      "learning_rate": 4.8782082720287725e-06,
      "loss": 1.1112,
      "step": 18500
    },
    {
      "epoch": 2.33,
      "learning_rate": 4.46951119829982e-06,
      "loss": 1.1051,
      "step": 19000
    },
    {
      "epoch": 2.39,
      "learning_rate": 4.060814124570868e-06,
      "loss": 1.0957,
      "step": 19500
    },
    {
      "epoch": 2.45,
      "learning_rate": 3.6521170508419164e-06,
      "loss": 1.1159,
      "step": 20000
    },
    {
      "epoch": 2.51,
      "learning_rate": 3.2434199771129642e-06,
      "loss": 1.1022,
      "step": 20500
    },
    {
      "epoch": 2.57,
      "learning_rate": 2.8347229033840116e-06,
      "loss": 1.0941,
      "step": 21000
    },
    {
      "epoch": 2.64,
      "learning_rate": 2.42602582965506e-06,
      "loss": 1.0904,
      "step": 21500
    },
    {
      "epoch": 2.7,
      "learning_rate": 2.0173287559261077e-06,
      "loss": 1.0773,
      "step": 22000
    },
    {
      "epoch": 2.76,
      "learning_rate": 1.6086316821971557e-06,
      "loss": 1.0313,
      "step": 22500
    },
    {
      "epoch": 2.82,
      "learning_rate": 1.1999346084682035e-06,
      "loss": 1.0433,
      "step": 23000
    },
    {
      "epoch": 2.88,
      "learning_rate": 7.912375347392513e-07,
      "loss": 1.0602,
      "step": 23500
    },
    {
      "epoch": 2.94,
      "learning_rate": 3.8254046101029914e-07,
      "loss": 1.0979,
      "step": 24000
    },
    {
      "epoch": 3.0,
      "eval_loss": 1.8589168787002563,
      "eval_runtime": 220.1091,
      "eval_samples_per_second": 54.196,
      "eval_steps_per_second": 3.389,
      "step": 24468
    }
  ],
  "logging_steps": 500,
  "max_steps": 24468,
  "num_train_epochs": 3,
  "save_steps": 500,
  "total_flos": 9.9889361131212e+16,
  "trial_name": null,
  "trial_params": null
}