{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 97.95918367346938,
  "global_step": 600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.63,
      "learning_rate": 0.009833333333333333,
      "loss": 2.53,
      "step": 10
    },
    {
      "epoch": 3.27,
      "learning_rate": 0.009666666666666667,
      "loss": 2.0016,
      "step": 20
    },
    {
      "epoch": 4.9,
      "learning_rate": 0.0095,
      "loss": 1.7775,
      "step": 30
    },
    {
      "epoch": 6.53,
      "learning_rate": 0.009333333333333334,
      "loss": 1.6576,
      "step": 40
    },
    {
      "epoch": 8.16,
      "learning_rate": 0.009166666666666667,
      "loss": 1.5048,
      "step": 50
    },
    {
      "epoch": 9.8,
      "learning_rate": 0.009000000000000001,
      "loss": 1.3572,
      "step": 60
    },
    {
      "epoch": 11.43,
      "learning_rate": 0.008833333333333334,
      "loss": 1.2067,
      "step": 70
    },
    {
      "epoch": 13.06,
      "learning_rate": 0.008666666666666668,
      "loss": 1.0777,
      "step": 80
    },
    {
      "epoch": 14.69,
      "learning_rate": 0.0085,
      "loss": 0.9188,
      "step": 90
    },
    {
      "epoch": 16.33,
      "learning_rate": 0.008333333333333333,
      "loss": 0.7241,
      "step": 100
    },
    {
      "epoch": 17.96,
      "learning_rate": 0.008166666666666666,
      "loss": 0.5775,
      "step": 110
    },
    {
      "epoch": 19.59,
      "learning_rate": 0.008,
      "loss": 0.4235,
      "step": 120
    },
    {
      "epoch": 21.22,
      "learning_rate": 0.007833333333333333,
      "loss": 0.3182,
      "step": 130
    },
    {
      "epoch": 22.86,
      "learning_rate": 0.007666666666666667,
      "loss": 0.2155,
      "step": 140
    },
    {
      "epoch": 24.49,
      "learning_rate": 0.0075,
      "loss": 0.1633,
      "step": 150
    },
    {
      "epoch": 26.12,
      "learning_rate": 0.007333333333333333,
      "loss": 0.1234,
      "step": 160
    },
    {
      "epoch": 27.76,
      "learning_rate": 0.007166666666666667,
      "loss": 0.0911,
      "step": 170
    },
    {
      "epoch": 29.39,
      "learning_rate": 0.006999999999999999,
      "loss": 0.0738,
      "step": 180
    },
    {
      "epoch": 31.02,
      "learning_rate": 0.006833333333333334,
      "loss": 0.0673,
      "step": 190
    },
    {
      "epoch": 32.65,
      "learning_rate": 0.006666666666666666,
      "loss": 0.0544,
      "step": 200
    },
    {
      "epoch": 34.29,
      "learning_rate": 0.006500000000000001,
      "loss": 0.0492,
      "step": 210
    },
    {
      "epoch": 35.92,
      "learning_rate": 0.006333333333333333,
      "loss": 0.0458,
      "step": 220
    },
    {
      "epoch": 37.55,
      "learning_rate": 0.0061666666666666675,
      "loss": 0.0434,
      "step": 230
    },
    {
      "epoch": 39.18,
      "learning_rate": 0.006,
      "loss": 0.0387,
      "step": 240
    },
    {
      "epoch": 40.82,
      "learning_rate": 0.005833333333333334,
      "loss": 0.0375,
      "step": 250
    },
    {
      "epoch": 42.45,
      "learning_rate": 0.005666666666666666,
      "loss": 0.0363,
      "step": 260
    },
    {
      "epoch": 44.08,
      "learning_rate": 0.0055000000000000005,
      "loss": 0.0347,
      "step": 270
    },
    {
      "epoch": 45.71,
      "learning_rate": 0.005333333333333333,
      "loss": 0.0341,
      "step": 280
    },
    {
      "epoch": 47.35,
      "learning_rate": 0.0051666666666666675,
      "loss": 0.0327,
      "step": 290
    },
    {
      "epoch": 48.98,
      "learning_rate": 0.005,
      "loss": 0.0307,
      "step": 300
    },
    {
      "epoch": 50.61,
      "learning_rate": 0.004833333333333334,
      "loss": 0.031,
      "step": 310
    },
    {
      "epoch": 52.24,
      "learning_rate": 0.004666666666666667,
      "loss": 0.0312,
      "step": 320
    },
    {
      "epoch": 53.88,
      "learning_rate": 0.0045000000000000005,
      "loss": 0.033,
      "step": 330
    },
    {
      "epoch": 55.51,
      "learning_rate": 0.004333333333333334,
      "loss": 0.0294,
      "step": 340
    },
    {
      "epoch": 57.14,
      "learning_rate": 0.004166666666666667,
      "loss": 0.0308,
      "step": 350
    },
    {
      "epoch": 58.78,
      "learning_rate": 0.004,
      "loss": 0.0301,
      "step": 360
    },
    {
      "epoch": 60.41,
      "learning_rate": 0.0038333333333333336,
      "loss": 0.0292,
      "step": 370
    },
    {
      "epoch": 62.04,
      "learning_rate": 0.0036666666666666666,
      "loss": 0.0316,
      "step": 380
    },
    {
      "epoch": 63.67,
      "learning_rate": 0.0034999999999999996,
      "loss": 0.0302,
      "step": 390
    },
    {
      "epoch": 65.31,
      "learning_rate": 0.003333333333333333,
      "loss": 0.0295,
      "step": 400
    },
    {
      "epoch": 66.94,
      "learning_rate": 0.0031666666666666666,
      "loss": 0.0306,
      "step": 410
    },
    {
      "epoch": 68.57,
      "learning_rate": 0.003,
      "loss": 0.0296,
      "step": 420
    },
    {
      "epoch": 70.2,
      "learning_rate": 0.002833333333333333,
      "loss": 0.0293,
      "step": 430
    },
    {
      "epoch": 71.84,
      "learning_rate": 0.0026666666666666666,
      "loss": 0.0302,
      "step": 440
    },
    {
      "epoch": 73.47,
      "learning_rate": 0.0025,
      "loss": 0.0288,
      "step": 450
    },
    {
      "epoch": 75.1,
      "learning_rate": 0.0023333333333333335,
      "loss": 0.0292,
      "step": 460
    },
    {
      "epoch": 76.73,
      "learning_rate": 0.002166666666666667,
      "loss": 0.0285,
      "step": 470
    },
    {
      "epoch": 78.37,
      "learning_rate": 0.002,
      "loss": 0.0309,
      "step": 480
    },
    {
      "epoch": 80.0,
      "learning_rate": 0.0018333333333333333,
      "loss": 0.0291,
      "step": 490
    },
    {
      "epoch": 81.63,
      "learning_rate": 0.0016666666666666666,
      "loss": 0.0305,
      "step": 500
    },
    {
      "epoch": 83.27,
      "learning_rate": 0.0015,
      "loss": 0.0302,
      "step": 510
    },
    {
      "epoch": 84.9,
      "learning_rate": 0.0013333333333333333,
      "loss": 0.0294,
      "step": 520
    },
    {
      "epoch": 86.53,
      "learning_rate": 0.0011666666666666668,
      "loss": 0.0295,
      "step": 530
    },
    {
      "epoch": 88.16,
      "learning_rate": 0.001,
      "loss": 0.0283,
      "step": 540
    },
    {
      "epoch": 89.8,
      "learning_rate": 0.0008333333333333333,
      "loss": 0.0305,
      "step": 550
    },
    {
      "epoch": 91.43,
      "learning_rate": 0.0006666666666666666,
      "loss": 0.0288,
      "step": 560
    },
    {
      "epoch": 93.06,
      "learning_rate": 0.0005,
      "loss": 0.0309,
      "step": 570
    },
    {
      "epoch": 94.69,
      "learning_rate": 0.0003333333333333333,
      "loss": 0.0286,
      "step": 580
    },
    {
      "epoch": 96.33,
      "learning_rate": 0.00016666666666666666,
      "loss": 0.0309,
      "step": 590
    },
    {
      "epoch": 97.96,
      "learning_rate": 0.0,
      "loss": 0.0294,
      "step": 600
    },
    {
      "epoch": 97.96,
      "step": 600,
      "total_flos": 7.054488937640755e+17,
      "train_loss": 0.302445507645607,
      "train_runtime": 8265.7464,
      "train_samples_per_second": 1.161,
      "train_steps_per_second": 0.073
    }
  ],
  "max_steps": 600,
  "num_train_epochs": 100,
  "total_flos": 7.054488937640755e+17,
  "trial_name": null,
  "trial_params": null
}