{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 19.946666666666665,
  "eval_steps": 500,
  "global_step": 3740,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 0.2082328200340271,
      "learning_rate": 0.0003,
      "loss": 1.7516,
      "step": 100
    },
    {
      "epoch": 0.9973333333333333,
      "eval_accuracy": 0.608609865470852,
      "eval_loss": 1.6714181900024414,
      "eval_runtime": 6.6041,
      "eval_samples_per_second": 75.71,
      "eval_steps_per_second": 9.54,
      "step": 187
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 0.2450818121433258,
      "learning_rate": 0.0003,
      "loss": 1.6997,
      "step": 200
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.36302751302719116,
      "learning_rate": 0.0003,
      "loss": 1.5219,
      "step": 300
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.6104035874439462,
      "eval_loss": 1.6736148595809937,
      "eval_runtime": 7.0545,
      "eval_samples_per_second": 70.877,
      "eval_steps_per_second": 8.93,
      "step": 375
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 0.4031146764755249,
      "learning_rate": 0.0003,
      "loss": 1.4473,
      "step": 400
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.4989413917064667,
      "learning_rate": 0.0003,
      "loss": 1.2037,
      "step": 500
    },
    {
      "epoch": 2.997333333333333,
      "eval_accuracy": 0.6081076233183856,
      "eval_loss": 1.756110429763794,
      "eval_runtime": 6.5632,
      "eval_samples_per_second": 76.183,
      "eval_steps_per_second": 9.599,
      "step": 562
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.5431676506996155,
      "learning_rate": 0.0003,
      "loss": 1.0868,
      "step": 600
    },
    {
      "epoch": 3.7333333333333334,
      "grad_norm": 0.5269047021865845,
      "learning_rate": 0.0003,
      "loss": 0.8815,
      "step": 700
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.6032645739910314,
      "eval_loss": 1.8874716758728027,
      "eval_runtime": 6.1584,
      "eval_samples_per_second": 81.19,
      "eval_steps_per_second": 10.23,
      "step": 750
    },
    {
      "epoch": 4.266666666666667,
      "grad_norm": 0.681224524974823,
      "learning_rate": 0.0003,
      "loss": 0.7337,
      "step": 800
    },
    {
      "epoch": 4.8,
      "grad_norm": 0.7092007994651794,
      "learning_rate": 0.0003,
      "loss": 0.6016,
      "step": 900
    },
    {
      "epoch": 4.997333333333334,
      "eval_accuracy": 0.5979730941704036,
      "eval_loss": 2.076803684234619,
      "eval_runtime": 6.7069,
      "eval_samples_per_second": 74.55,
      "eval_steps_per_second": 9.393,
      "step": 937
    },
    {
      "epoch": 5.333333333333333,
      "grad_norm": 0.6530160903930664,
      "learning_rate": 0.0003,
      "loss": 0.4625,
      "step": 1000
    },
    {
      "epoch": 5.866666666666667,
      "grad_norm": 0.7848784923553467,
      "learning_rate": 0.0003,
      "loss": 0.3979,
      "step": 1100
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.5953094170403588,
      "eval_loss": 2.260585069656372,
      "eval_runtime": 7.0817,
      "eval_samples_per_second": 70.605,
      "eval_steps_per_second": 8.896,
      "step": 1125
    },
    {
      "epoch": 6.4,
      "grad_norm": 0.8100391030311584,
      "learning_rate": 0.0003,
      "loss": 0.2797,
      "step": 1200
    },
    {
      "epoch": 6.933333333333334,
      "grad_norm": 0.723619282245636,
      "learning_rate": 0.0003,
      "loss": 0.2591,
      "step": 1300
    },
    {
      "epoch": 6.997333333333334,
      "eval_accuracy": 0.5932645739910314,
      "eval_loss": 2.4669973850250244,
      "eval_runtime": 7.1955,
      "eval_samples_per_second": 69.488,
      "eval_steps_per_second": 8.755,
      "step": 1312
    },
    {
      "epoch": 7.466666666666667,
      "grad_norm": 0.6629557013511658,
      "learning_rate": 0.0003,
      "loss": 0.1822,
      "step": 1400
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.6765617728233337,
      "learning_rate": 0.0003,
      "loss": 0.1821,
      "step": 1500
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.592152466367713,
      "eval_loss": 2.6145341396331787,
      "eval_runtime": 7.0099,
      "eval_samples_per_second": 71.327,
      "eval_steps_per_second": 8.987,
      "step": 1500
    },
    {
      "epoch": 8.533333333333333,
      "grad_norm": 0.5296387672424316,
      "learning_rate": 0.0003,
      "loss": 0.1338,
      "step": 1600
    },
    {
      "epoch": 8.997333333333334,
      "eval_accuracy": 0.5910582959641255,
      "eval_loss": 2.739866256713867,
      "eval_runtime": 7.1202,
      "eval_samples_per_second": 70.223,
      "eval_steps_per_second": 8.848,
      "step": 1687
    },
    {
      "epoch": 9.066666666666666,
      "grad_norm": 0.402245432138443,
      "learning_rate": 0.0003,
      "loss": 0.1407,
      "step": 1700
    },
    {
      "epoch": 9.6,
      "grad_norm": 0.44858765602111816,
      "learning_rate": 0.0003,
      "loss": 0.1172,
      "step": 1800
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.5914618834080717,
      "eval_loss": 2.833005666732788,
      "eval_runtime": 7.0274,
      "eval_samples_per_second": 71.15,
      "eval_steps_per_second": 8.965,
      "step": 1875
    },
    {
      "epoch": 10.133333333333333,
      "grad_norm": 0.4508216381072998,
      "learning_rate": 0.0003,
      "loss": 0.1195,
      "step": 1900
    },
    {
      "epoch": 10.666666666666666,
      "grad_norm": 0.37036266922950745,
      "learning_rate": 0.0003,
      "loss": 0.1102,
      "step": 2000
    },
    {
      "epoch": 10.997333333333334,
      "eval_accuracy": 0.5914349775784753,
      "eval_loss": 2.8673934936523438,
      "eval_runtime": 6.5903,
      "eval_samples_per_second": 75.869,
      "eval_steps_per_second": 9.56,
      "step": 2062
    },
    {
      "epoch": 11.2,
      "grad_norm": 0.3041936457157135,
      "learning_rate": 0.0003,
      "loss": 0.1131,
      "step": 2100
    },
    {
      "epoch": 11.733333333333333,
      "grad_norm": 0.5073165893554688,
      "learning_rate": 0.0003,
      "loss": 0.1079,
      "step": 2200
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.5903497757847533,
      "eval_loss": 2.894710063934326,
      "eval_runtime": 7.0771,
      "eval_samples_per_second": 70.65,
      "eval_steps_per_second": 8.902,
      "step": 2250
    },
    {
      "epoch": 12.266666666666667,
      "grad_norm": 0.4313170909881592,
      "learning_rate": 0.0003,
      "loss": 0.1083,
      "step": 2300
    },
    {
      "epoch": 12.8,
      "grad_norm": 0.4307994544506073,
      "learning_rate": 0.0003,
      "loss": 0.11,
      "step": 2400
    },
    {
      "epoch": 12.997333333333334,
      "eval_accuracy": 0.589354260089686,
      "eval_loss": 2.9230430126190186,
      "eval_runtime": 7.1832,
      "eval_samples_per_second": 69.607,
      "eval_steps_per_second": 8.771,
      "step": 2437
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.38372334837913513,
      "learning_rate": 0.0003,
      "loss": 0.1082,
      "step": 2500
    },
    {
      "epoch": 13.866666666666667,
      "grad_norm": 0.49263113737106323,
      "learning_rate": 0.0003,
      "loss": 0.1136,
      "step": 2600
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.5888340807174888,
      "eval_loss": 2.9049084186553955,
      "eval_runtime": 6.7163,
      "eval_samples_per_second": 74.446,
      "eval_steps_per_second": 9.38,
      "step": 2625
    },
    {
      "epoch": 14.4,
      "grad_norm": 0.42505690455436707,
      "learning_rate": 0.0003,
      "loss": 0.1086,
      "step": 2700
    },
    {
      "epoch": 14.933333333333334,
      "grad_norm": 0.6179661750793457,
      "learning_rate": 0.0003,
      "loss": 0.1173,
      "step": 2800
    },
    {
      "epoch": 14.997333333333334,
      "eval_accuracy": 0.5882511210762332,
      "eval_loss": 2.8788018226623535,
      "eval_runtime": 6.217,
      "eval_samples_per_second": 80.425,
      "eval_steps_per_second": 10.133,
      "step": 2812
    },
    {
      "epoch": 15.466666666666667,
      "grad_norm": 0.45964017510414124,
      "learning_rate": 0.0003,
      "loss": 0.109,
      "step": 2900
    },
    {
      "epoch": 16.0,
      "grad_norm": 0.5801168084144592,
      "learning_rate": 0.0003,
      "loss": 0.1163,
      "step": 3000
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.589237668161435,
      "eval_loss": 2.9582040309906006,
      "eval_runtime": 7.1226,
      "eval_samples_per_second": 70.199,
      "eval_steps_per_second": 8.845,
      "step": 3000
    },
    {
      "epoch": 16.533333333333335,
      "grad_norm": 0.4587346315383911,
      "learning_rate": 0.0003,
      "loss": 0.1047,
      "step": 3100
    },
    {
      "epoch": 16.997333333333334,
      "eval_accuracy": 0.5885650224215246,
      "eval_loss": 2.9484808444976807,
      "eval_runtime": 6.6834,
      "eval_samples_per_second": 74.812,
      "eval_steps_per_second": 9.426,
      "step": 3187
    },
    {
      "epoch": 17.066666666666666,
      "grad_norm": 0.4009888470172882,
      "learning_rate": 0.0003,
      "loss": 0.1145,
      "step": 3200
    },
    {
      "epoch": 17.6,
      "grad_norm": 1.4840149879455566,
      "learning_rate": 0.0003,
      "loss": 0.1044,
      "step": 3300
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.5894080717488789,
      "eval_loss": 2.9815316200256348,
      "eval_runtime": 7.2254,
      "eval_samples_per_second": 69.2,
      "eval_steps_per_second": 8.719,
      "step": 3375
    },
    {
      "epoch": 18.133333333333333,
      "grad_norm": 0.4150511920452118,
      "learning_rate": 0.0003,
      "loss": 0.1111,
      "step": 3400
    },
    {
      "epoch": 18.666666666666668,
      "grad_norm": 0.47382423281669617,
      "learning_rate": 0.0003,
      "loss": 0.105,
      "step": 3500
    },
    {
      "epoch": 18.997333333333334,
      "eval_accuracy": 0.5881076233183856,
      "eval_loss": 2.987971544265747,
      "eval_runtime": 7.3831,
      "eval_samples_per_second": 67.722,
      "eval_steps_per_second": 8.533,
      "step": 3562
    },
    {
      "epoch": 19.2,
      "grad_norm": 0.4355124533176422,
      "learning_rate": 0.0003,
      "loss": 0.1068,
      "step": 3600
    },
    {
      "epoch": 19.733333333333334,
      "grad_norm": 0.43823131918907166,
      "learning_rate": 0.0003,
      "loss": 0.1036,
      "step": 3700
    },
    {
      "epoch": 19.946666666666665,
      "eval_accuracy": 0.5885829596412556,
      "eval_loss": 3.0184407234191895,
      "eval_runtime": 6.2011,
      "eval_samples_per_second": 80.631,
      "eval_steps_per_second": 10.159,
      "step": 3740
    },
    {
      "epoch": 19.946666666666665,
      "step": 3740,
      "total_flos": 3.767212755417825e+17,
      "train_loss": 0.406913380316872,
      "train_runtime": 8744.2637,
      "train_samples_per_second": 13.723,
      "train_steps_per_second": 0.428
    }
  ],
  "logging_steps": 100,
  "max_steps": 3740,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 20,
  "save_steps": 500,
  "total_flos": 3.767212755417825e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}