{
  "best_metric": 0.7302118007837902,
  "best_model_checkpoint": "training_dir/checkpoint-9000",
  "epoch": 1.5856998702609197,
  "eval_steps": 1000,
  "global_step": 11000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.1441545336600836,
      "grad_norm": 16.373106002807617,
      "learning_rate": 9.927399448235807e-06,
      "loss": 0.7517,
      "step": 1000
    },
    {
      "epoch": 0.1441545336600836,
      "eval_accuracy": 0.6748251748251748,
      "eval_f1": 0.6503033958859975,
      "eval_loss": 0.8400167226791382,
      "eval_precision": 0.6718840754873379,
      "eval_recall": 0.6748251748251748,
      "eval_runtime": 25.7476,
      "eval_samples_per_second": 88.863,
      "eval_steps_per_second": 11.108,
      "step": 1000
    },
    {
      "epoch": 0.2883090673201672,
      "grad_norm": 5.310367107391357,
      "learning_rate": 9.78219834470742e-06,
      "loss": 0.4979,
      "step": 2000
    },
    {
      "epoch": 0.2883090673201672,
      "eval_accuracy": 0.6923076923076923,
      "eval_f1": 0.6833534614626783,
      "eval_loss": 0.816114068031311,
      "eval_precision": 0.6934872660066032,
      "eval_recall": 0.6923076923076923,
      "eval_runtime": 25.3429,
      "eval_samples_per_second": 90.282,
      "eval_steps_per_second": 11.285,
      "step": 2000
    },
    {
      "epoch": 0.43246360098025083,
      "grad_norm": 19.54282569885254,
      "learning_rate": 9.636997241179033e-06,
      "loss": 0.485,
      "step": 3000
    },
    {
      "epoch": 0.43246360098025083,
      "eval_accuracy": 0.694493006993007,
      "eval_f1": 0.6807097826669117,
      "eval_loss": 0.8902720212936401,
      "eval_precision": 0.6968953242961238,
      "eval_recall": 0.694493006993007,
      "eval_runtime": 25.3571,
      "eval_samples_per_second": 90.231,
      "eval_steps_per_second": 11.279,
      "step": 3000
    },
    {
      "epoch": 0.5766181346403344,
      "grad_norm": 8.546618461608887,
      "learning_rate": 9.491796137650647e-06,
      "loss": 0.4574,
      "step": 4000
    },
    {
      "epoch": 0.5766181346403344,
      "eval_accuracy": 0.7211538461538461,
      "eval_f1": 0.708898038119884,
      "eval_loss": 0.7488723397254944,
      "eval_precision": 0.7197308016577711,
      "eval_recall": 0.7211538461538461,
      "eval_runtime": 25.3712,
      "eval_samples_per_second": 90.181,
      "eval_steps_per_second": 11.273,
      "step": 4000
    },
    {
      "epoch": 0.7207726683004181,
      "grad_norm": 23.879539489746094,
      "learning_rate": 9.34659503412226e-06,
      "loss": 0.4452,
      "step": 5000
    },
    {
      "epoch": 0.7207726683004181,
      "eval_accuracy": 0.7128496503496503,
      "eval_f1": 0.7010543523258591,
      "eval_loss": 0.859101414680481,
      "eval_precision": 0.7146560494017891,
      "eval_recall": 0.7128496503496503,
      "eval_runtime": 25.2873,
      "eval_samples_per_second": 90.48,
      "eval_steps_per_second": 11.31,
      "step": 5000
    },
    {
      "epoch": 0.8649272019605017,
      "grad_norm": 47.21122741699219,
      "learning_rate": 9.201393930593873e-06,
      "loss": 0.4336,
      "step": 6000
    },
    {
      "epoch": 0.8649272019605017,
      "eval_accuracy": 0.7268356643356644,
      "eval_f1": 0.7205170840556832,
      "eval_loss": 0.8424187302589417,
      "eval_precision": 0.7276864584621308,
      "eval_recall": 0.7268356643356644,
      "eval_runtime": 25.3896,
      "eval_samples_per_second": 90.116,
      "eval_steps_per_second": 11.264,
      "step": 6000
    },
    {
      "epoch": 1.0090817356205852,
      "grad_norm": 3.049442768096924,
      "learning_rate": 9.056192827065487e-06,
      "loss": 0.4279,
      "step": 7000
    },
    {
      "epoch": 1.0090817356205852,
      "eval_accuracy": 0.7368881118881119,
      "eval_f1": 0.7295068529588495,
      "eval_loss": 0.8705117106437683,
      "eval_precision": 0.7399618765160494,
      "eval_recall": 0.7368881118881119,
      "eval_runtime": 25.4315,
      "eval_samples_per_second": 89.967,
      "eval_steps_per_second": 11.246,
      "step": 7000
    },
    {
      "epoch": 1.1532362692806688,
      "grad_norm": 11.37846851348877,
      "learning_rate": 8.910991723537099e-06,
      "loss": 0.3622,
      "step": 8000
    },
    {
      "epoch": 1.1532362692806688,
      "eval_accuracy": 0.7272727272727273,
      "eval_f1": 0.7162130791212256,
      "eval_loss": 0.9682965874671936,
      "eval_precision": 0.7242711624777487,
      "eval_recall": 0.7272727272727273,
      "eval_runtime": 25.3326,
      "eval_samples_per_second": 90.318,
      "eval_steps_per_second": 11.29,
      "step": 8000
    },
    {
      "epoch": 1.2973908029407526,
      "grad_norm": 12.848000526428223,
      "learning_rate": 8.765790620008713e-06,
      "loss": 0.3642,
      "step": 9000
    },
    {
      "epoch": 1.2973908029407526,
      "eval_accuracy": 0.736451048951049,
      "eval_f1": 0.7302118007837902,
      "eval_loss": 0.9575034976005554,
      "eval_precision": 0.7379555444371879,
      "eval_recall": 0.736451048951049,
      "eval_runtime": 25.3465,
      "eval_samples_per_second": 90.269,
      "eval_steps_per_second": 11.284,
      "step": 9000
    },
    {
      "epoch": 1.4415453366008362,
      "grad_norm": 31.245479583740234,
      "learning_rate": 8.620589516480325e-06,
      "loss": 0.3719,
      "step": 10000
    },
    {
      "epoch": 1.4415453366008362,
      "eval_accuracy": 0.7163461538461539,
      "eval_f1": 0.7042143981960916,
      "eval_loss": 0.997032642364502,
      "eval_precision": 0.7286190046470993,
      "eval_recall": 0.7163461538461539,
      "eval_runtime": 25.6034,
      "eval_samples_per_second": 89.363,
      "eval_steps_per_second": 11.17,
      "step": 10000
    },
    {
      "epoch": 1.5856998702609197,
      "grad_norm": 0.9291965961456299,
      "learning_rate": 8.475388412951939e-06,
      "loss": 0.382,
      "step": 11000
    },
    {
      "epoch": 1.5856998702609197,
      "eval_accuracy": 0.7233391608391608,
      "eval_f1": 0.7111261766120992,
      "eval_loss": 0.9670953154563904,
      "eval_precision": 0.7298151319032911,
      "eval_recall": 0.7233391608391608,
      "eval_runtime": 25.491,
      "eval_samples_per_second": 89.757,
      "eval_steps_per_second": 11.22,
      "step": 11000
    }
  ],
  "logging_steps": 1000,
  "max_steps": 69370,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.101747897676584e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}