{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 11.0,
  "global_step": 221540,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.25,
      "learning_rate": 9.909609120521173e-05,
      "loss": 2.4473,
      "step": 5000
    },
    {
      "epoch": 0.5,
      "learning_rate": 9.796530039811799e-05,
      "loss": 1.8064,
      "step": 10000
    },
    {
      "epoch": 0.74,
      "learning_rate": 9.683473579442635e-05,
      "loss": 1.6957,
      "step": 15000
    },
    {
      "epoch": 0.99,
      "learning_rate": 9.570417119073471e-05,
      "loss": 1.6302,
      "step": 20000
    },
    {
      "epoch": 1.24,
      "learning_rate": 9.457383279044517e-05,
      "loss": 1.5838,
      "step": 25000
    },
    {
      "epoch": 1.49,
      "learning_rate": 9.344304198335143e-05,
      "loss": 1.552,
      "step": 30000
    },
    {
      "epoch": 1.74,
      "learning_rate": 9.23127035830619e-05,
      "loss": 1.5235,
      "step": 35000
    },
    {
      "epoch": 1.99,
      "learning_rate": 9.118236518277235e-05,
      "loss": 1.5019,
      "step": 40000
    },
    {
      "epoch": 2.23,
      "learning_rate": 9.005157437567862e-05,
      "loss": 1.4807,
      "step": 45000
    },
    {
      "epoch": 2.48,
      "learning_rate": 8.892100977198697e-05,
      "loss": 1.4627,
      "step": 50000
    },
    {
      "epoch": 2.73,
      "learning_rate": 8.779044516829533e-05,
      "loss": 1.449,
      "step": 55000
    },
    {
      "epoch": 2.98,
      "learning_rate": 8.665965436120159e-05,
      "loss": 1.4371,
      "step": 60000
    },
    {
      "epoch": 3.23,
      "learning_rate": 8.552931596091206e-05,
      "loss": 1.4229,
      "step": 65000
    },
    {
      "epoch": 3.48,
      "learning_rate": 8.439852515381831e-05,
      "loss": 1.4127,
      "step": 70000
    },
    {
      "epoch": 3.72,
      "learning_rate": 8.326773434672458e-05,
      "loss": 1.4034,
      "step": 75000
    },
    {
      "epoch": 3.97,
      "learning_rate": 8.213716974303293e-05,
      "loss": 1.394,
      "step": 80000
    },
    {
      "epoch": 4.22,
      "learning_rate": 8.100683134274339e-05,
      "loss": 1.3822,
      "step": 85000
    },
    {
      "epoch": 4.47,
      "learning_rate": 7.987581433224755e-05,
      "loss": 1.3746,
      "step": 90000
    },
    {
      "epoch": 4.72,
      "learning_rate": 7.874524972855593e-05,
      "loss": 1.3659,
      "step": 95000
    },
    {
      "epoch": 4.97,
      "learning_rate": 7.761468512486428e-05,
      "loss": 1.3603,
      "step": 100000
    },
    {
      "epoch": 5.21,
      "learning_rate": 7.648412052117264e-05,
      "loss": 1.3509,
      "step": 105000
    },
    {
      "epoch": 5.46,
      "learning_rate": 7.53533297140789e-05,
      "loss": 1.3439,
      "step": 110000
    },
    {
      "epoch": 5.71,
      "learning_rate": 7.422276511038726e-05,
      "loss": 1.3389,
      "step": 115000
    },
    {
      "epoch": 5.96,
      "learning_rate": 7.309220050669564e-05,
      "loss": 1.3318,
      "step": 120000
    },
    {
      "epoch": 6.21,
      "learning_rate": 7.196163590300398e-05,
      "loss": 1.3233,
      "step": 125000
    },
    {
      "epoch": 6.45,
      "learning_rate": 7.083107129931235e-05,
      "loss": 1.3169,
      "step": 130000
    },
    {
      "epoch": 6.7,
      "learning_rate": 6.97002804922186e-05,
      "loss": 1.3104,
      "step": 135000
    },
    {
      "epoch": 6.95,
      "learning_rate": 6.856994209192906e-05,
      "loss": 1.3064,
      "step": 140000
    },
    {
      "epoch": 7.2,
      "learning_rate": 6.743937748823743e-05,
      "loss": 1.3007,
      "step": 145000
    },
    {
      "epoch": 7.45,
      "learning_rate": 6.630858668114369e-05,
      "loss": 1.2962,
      "step": 150000
    },
    {
      "epoch": 7.7,
      "learning_rate": 6.517779587404995e-05,
      "loss": 1.2915,
      "step": 155000
    },
    {
      "epoch": 7.94,
      "learning_rate": 6.40470050669562e-05,
      "loss": 1.2877,
      "step": 160000
    },
    {
      "epoch": 8.19,
      "learning_rate": 6.291644046326457e-05,
      "loss": 1.2783,
      "step": 165000
    },
    {
      "epoch": 8.44,
      "learning_rate": 6.178564965617082e-05,
      "loss": 1.2741,
      "step": 170000
    },
    {
      "epoch": 8.69,
      "learning_rate": 6.065485884907709e-05,
      "loss": 1.2705,
      "step": 175000
    },
    {
      "epoch": 8.94,
      "learning_rate": 5.9524746652189655e-05,
      "loss": 1.267,
      "step": 180000
    },
    {
      "epoch": 9.19,
      "learning_rate": 5.839395584509592e-05,
      "loss": 1.26,
      "step": 185000
    },
    {
      "epoch": 9.43,
      "learning_rate": 5.7263391241404275e-05,
      "loss": 1.2558,
      "step": 190000
    },
    {
      "epoch": 9.68,
      "learning_rate": 5.613260043431053e-05,
      "loss": 1.2531,
      "step": 195000
    },
    {
      "epoch": 9.93,
      "learning_rate": 5.5002035830618894e-05,
      "loss": 1.2492,
      "step": 200000
    },
    {
      "epoch": 10.18,
      "learning_rate": 5.387124502352515e-05,
      "loss": 1.2432,
      "step": 205000
    },
    {
      "epoch": 10.43,
      "learning_rate": 5.274113282663772e-05,
      "loss": 1.2391,
      "step": 210000
    },
    {
      "epoch": 10.68,
      "learning_rate": 5.1610342019543975e-05,
      "loss": 1.2347,
      "step": 215000
    },
    {
      "epoch": 10.92,
      "learning_rate": 5.047977741585234e-05,
      "loss": 1.231,
      "step": 220000
    }
  ],
  "max_steps": 443080,
  "num_train_epochs": 22,
  "total_flos": 7.46536345693738e+18,
  "trial_name": null,
  "trial_params": null
}