{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 6.9981660990306525,
  "eval_steps": 500,
  "global_step": 3339,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.21,
      "learning_rate": 4.8502545672356995e-05,
      "loss": 4.386,
      "step": 100
    },
    {
      "epoch": 0.42,
      "learning_rate": 4.700509134471399e-05,
      "loss": 2.3961,
      "step": 200
    },
    {
      "epoch": 0.63,
      "learning_rate": 4.550763701707098e-05,
      "loss": 2.0441,
      "step": 300
    },
    {
      "epoch": 0.84,
      "learning_rate": 4.401018268942798e-05,
      "loss": 1.8911,
      "step": 400
    },
    {
      "epoch": 1.05,
      "learning_rate": 4.251272836178497e-05,
      "loss": 1.8026,
      "step": 500
    },
    {
      "epoch": 1.26,
      "learning_rate": 4.101527403414196e-05,
      "loss": 1.7257,
      "step": 600
    },
    {
      "epoch": 1.47,
      "learning_rate": 3.9517819706498955e-05,
      "loss": 1.6764,
      "step": 700
    },
    {
      "epoch": 1.68,
      "learning_rate": 3.802036537885595e-05,
      "loss": 1.6339,
      "step": 800
    },
    {
      "epoch": 1.89,
      "learning_rate": 3.652291105121294e-05,
      "loss": 1.6142,
      "step": 900
    },
    {
      "epoch": 2.1,
      "learning_rate": 3.502545672356993e-05,
      "loss": 1.5706,
      "step": 1000
    },
    {
      "epoch": 2.31,
      "learning_rate": 3.352800239592693e-05,
      "loss": 1.5514,
      "step": 1100
    },
    {
      "epoch": 2.52,
      "learning_rate": 3.2030548068283916e-05,
      "loss": 1.5279,
      "step": 1200
    },
    {
      "epoch": 2.72,
      "learning_rate": 3.053309374064091e-05,
      "loss": 1.521,
      "step": 1300
    },
    {
      "epoch": 2.93,
      "learning_rate": 2.9035639412997907e-05,
      "loss": 1.4941,
      "step": 1400
    },
    {
      "epoch": 3.14,
      "learning_rate": 2.75381850853549e-05,
      "loss": 1.4752,
      "step": 1500
    },
    {
      "epoch": 3.35,
      "learning_rate": 2.604073075771189e-05,
      "loss": 1.4605,
      "step": 1600
    },
    {
      "epoch": 3.56,
      "learning_rate": 2.4543276430068884e-05,
      "loss": 1.4337,
      "step": 1700
    },
    {
      "epoch": 3.77,
      "learning_rate": 2.3045822102425876e-05,
      "loss": 1.4441,
      "step": 1800
    },
    {
      "epoch": 3.98,
      "learning_rate": 2.154836777478287e-05,
      "loss": 1.4323,
      "step": 1900
    },
    {
      "epoch": 4.19,
      "learning_rate": 2.0050913447139864e-05,
      "loss": 1.4108,
      "step": 2000
    },
    {
      "epoch": 4.4,
      "learning_rate": 1.8553459119496856e-05,
      "loss": 1.4184,
      "step": 2100
    },
    {
      "epoch": 4.61,
      "learning_rate": 1.7056004791853848e-05,
      "loss": 1.3959,
      "step": 2200
    },
    {
      "epoch": 4.82,
      "learning_rate": 1.555855046421084e-05,
      "loss": 1.3924,
      "step": 2300
    },
    {
      "epoch": 5.03,
      "learning_rate": 1.4061096136567836e-05,
      "loss": 1.3933,
      "step": 2400
    },
    {
      "epoch": 5.24,
      "learning_rate": 1.2563641808924828e-05,
      "loss": 1.3788,
      "step": 2500
    },
    {
      "epoch": 5.45,
      "learning_rate": 1.1066187481281822e-05,
      "loss": 1.3677,
      "step": 2600
    },
    {
      "epoch": 5.66,
      "learning_rate": 9.568733153638814e-06,
      "loss": 1.3602,
      "step": 2700
    },
    {
      "epoch": 5.87,
      "learning_rate": 8.071278825995808e-06,
      "loss": 1.3592,
      "step": 2800
    },
    {
      "epoch": 6.08,
      "learning_rate": 6.5738244983528e-06,
      "loss": 1.3522,
      "step": 2900
    },
    {
      "epoch": 6.29,
      "learning_rate": 5.0763701707097935e-06,
      "loss": 1.3586,
      "step": 3000
    },
    {
      "epoch": 6.5,
      "learning_rate": 3.5789158430667866e-06,
      "loss": 1.3571,
      "step": 3100
    },
    {
      "epoch": 6.71,
      "learning_rate": 2.0814615154237796e-06,
      "loss": 1.3572,
      "step": 3200
    },
    {
      "epoch": 6.92,
      "learning_rate": 5.840071877807727e-07,
      "loss": 1.3452,
      "step": 3300
    },
    {
      "epoch": 7.0,
      "step": 3339,
      "total_flos": 1.0075939996832611e+17,
      "train_loss": 1.6127097251780127,
      "train_runtime": 8839.4407,
      "train_samples_per_second": 72.539,
      "train_steps_per_second": 0.378
    }
  ],
  "logging_steps": 100,
  "max_steps": 3339,
  "num_train_epochs": 7,
  "save_steps": 500,
  "total_flos": 1.0075939996832611e+17,
  "trial_name": null,
  "trial_params": null
}