{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "global_step": 3174,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.09,
      "eval_loss": 0.291690856218338,
      "eval_runtime": 11.8699,
      "eval_samples_per_second": 94.019,
      "eval_steps_per_second": 11.795,
      "step": 100
    },
    {
      "epoch": 0.19,
      "eval_loss": 0.2913290560245514,
      "eval_runtime": 11.9204,
      "eval_samples_per_second": 93.621,
      "eval_steps_per_second": 11.745,
      "step": 200
    },
    {
      "epoch": 0.28,
      "eval_loss": 0.27973252534866333,
      "eval_runtime": 11.9409,
      "eval_samples_per_second": 93.46,
      "eval_steps_per_second": 11.724,
      "step": 300
    },
    {
      "epoch": 0.38,
      "eval_loss": 0.25020790100097656,
      "eval_runtime": 11.9448,
      "eval_samples_per_second": 93.43,
      "eval_steps_per_second": 11.721,
      "step": 400
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.2123503465658476e-05,
      "loss": 0.3052,
      "step": 500
    },
    {
      "epoch": 0.47,
      "eval_loss": 0.2535267770290375,
      "eval_runtime": 11.9395,
      "eval_samples_per_second": 93.471,
      "eval_steps_per_second": 11.726,
      "step": 500
    },
    {
      "epoch": 0.57,
      "eval_loss": 0.29139193892478943,
      "eval_runtime": 11.942,
      "eval_samples_per_second": 93.452,
      "eval_steps_per_second": 11.723,
      "step": 600
    },
    {
      "epoch": 0.66,
      "eval_loss": 0.2721957862377167,
      "eval_runtime": 11.936,
      "eval_samples_per_second": 93.498,
      "eval_steps_per_second": 11.729,
      "step": 700
    },
    {
      "epoch": 0.76,
      "eval_loss": 0.24325571954250336,
      "eval_runtime": 11.9084,
      "eval_samples_per_second": 93.716,
      "eval_steps_per_second": 11.756,
      "step": 800
    },
    {
      "epoch": 0.85,
      "eval_loss": 0.2575836777687073,
      "eval_runtime": 11.9447,
      "eval_samples_per_second": 93.43,
      "eval_steps_per_second": 11.721,
      "step": 900
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.424700693131695e-05,
      "loss": 0.2236,
      "step": 1000
    },
    {
      "epoch": 0.95,
      "eval_loss": 0.2607925832271576,
      "eval_runtime": 11.9435,
      "eval_samples_per_second": 93.44,
      "eval_steps_per_second": 11.722,
      "step": 1000
    },
    {
      "epoch": 1.04,
      "eval_loss": 0.2817261815071106,
      "eval_runtime": 11.9296,
      "eval_samples_per_second": 93.549,
      "eval_steps_per_second": 11.735,
      "step": 1100
    },
    {
      "epoch": 1.13,
      "eval_loss": 0.24339333176612854,
      "eval_runtime": 11.9423,
      "eval_samples_per_second": 93.449,
      "eval_steps_per_second": 11.723,
      "step": 1200
    },
    {
      "epoch": 1.23,
      "eval_loss": 0.24544629454612732,
      "eval_runtime": 11.9445,
      "eval_samples_per_second": 93.432,
      "eval_steps_per_second": 11.721,
      "step": 1300
    },
    {
      "epoch": 1.32,
      "eval_loss": 0.23857346177101135,
      "eval_runtime": 11.9479,
      "eval_samples_per_second": 93.406,
      "eval_steps_per_second": 11.718,
      "step": 1400
    },
    {
      "epoch": 1.42,
      "learning_rate": 2.637051039697543e-05,
      "loss": 0.1449,
      "step": 1500
    },
    {
      "epoch": 1.42,
      "eval_loss": 0.2612239718437195,
      "eval_runtime": 11.947,
      "eval_samples_per_second": 93.413,
      "eval_steps_per_second": 11.718,
      "step": 1500
    },
    {
      "epoch": 1.51,
      "eval_loss": 0.264009565114975,
      "eval_runtime": 11.9446,
      "eval_samples_per_second": 93.431,
      "eval_steps_per_second": 11.721,
      "step": 1600
    },
    {
      "epoch": 1.61,
      "eval_loss": 0.23957186937332153,
      "eval_runtime": 11.9459,
      "eval_samples_per_second": 93.421,
      "eval_steps_per_second": 11.72,
      "step": 1700
    },
    {
      "epoch": 1.7,
      "eval_loss": 0.23903459310531616,
      "eval_runtime": 11.9432,
      "eval_samples_per_second": 93.443,
      "eval_steps_per_second": 11.722,
      "step": 1800
    },
    {
      "epoch": 1.8,
      "eval_loss": 0.22416594624519348,
      "eval_runtime": 11.944,
      "eval_samples_per_second": 93.436,
      "eval_steps_per_second": 11.721,
      "step": 1900
    },
    {
      "epoch": 1.89,
      "learning_rate": 1.8494013862633903e-05,
      "loss": 0.1408,
      "step": 2000
    },
    {
      "epoch": 1.89,
      "eval_loss": 0.2341969758272171,
      "eval_runtime": 11.9399,
      "eval_samples_per_second": 93.468,
      "eval_steps_per_second": 11.725,
      "step": 2000
    },
    {
      "epoch": 1.98,
      "eval_loss": 0.23950397968292236,
      "eval_runtime": 11.9383,
      "eval_samples_per_second": 93.481,
      "eval_steps_per_second": 11.727,
      "step": 2100
    },
    {
      "epoch": 2.08,
      "eval_loss": 0.285567045211792,
      "eval_runtime": 11.9279,
      "eval_samples_per_second": 93.562,
      "eval_steps_per_second": 11.737,
      "step": 2200
    },
    {
      "epoch": 2.17,
      "eval_loss": 0.2656622529029846,
      "eval_runtime": 11.9385,
      "eval_samples_per_second": 93.479,
      "eval_steps_per_second": 11.727,
      "step": 2300
    },
    {
      "epoch": 2.27,
      "eval_loss": 0.25764182209968567,
      "eval_runtime": 11.9434,
      "eval_samples_per_second": 93.44,
      "eval_steps_per_second": 11.722,
      "step": 2400
    },
    {
      "epoch": 2.36,
      "learning_rate": 1.0617517328292375e-05,
      "loss": 0.0893,
      "step": 2500
    },
    {
      "epoch": 2.36,
      "eval_loss": 0.26884153485298157,
      "eval_runtime": 11.9443,
      "eval_samples_per_second": 93.434,
      "eval_steps_per_second": 11.721,
      "step": 2500
    },
    {
      "epoch": 2.46,
      "eval_loss": 0.2657739520072937,
      "eval_runtime": 11.9455,
      "eval_samples_per_second": 93.425,
      "eval_steps_per_second": 11.72,
      "step": 2600
    },
    {
      "epoch": 2.55,
      "eval_loss": 0.2614665925502777,
      "eval_runtime": 11.9422,
      "eval_samples_per_second": 93.45,
      "eval_steps_per_second": 11.723,
      "step": 2700
    },
    {
      "epoch": 2.65,
      "eval_loss": 0.27043506503105164,
      "eval_runtime": 11.9429,
      "eval_samples_per_second": 93.445,
      "eval_steps_per_second": 11.722,
      "step": 2800
    },
    {
      "epoch": 2.74,
      "eval_loss": 0.2741823196411133,
      "eval_runtime": 11.9422,
      "eval_samples_per_second": 93.45,
      "eval_steps_per_second": 11.723,
      "step": 2900
    },
    {
      "epoch": 2.84,
      "learning_rate": 2.741020793950851e-06,
      "loss": 0.0668,
      "step": 3000
    },
    {
      "epoch": 2.84,
      "eval_loss": 0.2574303448200226,
      "eval_runtime": 11.9428,
      "eval_samples_per_second": 93.445,
      "eval_steps_per_second": 11.723,
      "step": 3000
    },
    {
      "epoch": 2.93,
      "eval_loss": 0.2549898028373718,
      "eval_runtime": 11.9436,
      "eval_samples_per_second": 93.439,
      "eval_steps_per_second": 11.722,
      "step": 3100
    }
  ],
  "max_steps": 3174,
  "num_train_epochs": 3,
  "total_flos": 6635087188033536.0,
  "trial_name": null,
  "trial_params": null
}