{
  "best_metric": 0.9140096618357488,
  "best_model_checkpoint": "/content/dissertation/scripts/ner/output/checkpoint-4940",
  "epoch": 9.989888776541962,
  "eval_steps": 500,
  "global_step": 4940,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.9989888776541962,
      "eval_accuracy": 0.9982926512594131,
      "eval_f1": 0.8903781713738632,
      "eval_loss": 0.004970682319253683,
      "eval_precision": 0.8806818181818182,
      "eval_recall": 0.9002904162633107,
      "eval_runtime": 13.9779,
      "eval_samples_per_second": 486.339,
      "eval_steps_per_second": 60.81,
      "step": 494
    },
    {
      "epoch": 1.0111223458038423,
      "grad_norm": 0.07247231900691986,
      "learning_rate": 4.4939271255060735e-05,
      "loss": 0.0131,
      "step": 500
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.9985328486107504,
      "eval_f1": 0.9090909090909091,
      "eval_loss": 0.004644014406949282,
      "eval_precision": 0.9034416826003824,
      "eval_recall": 0.914811229428848,
      "eval_runtime": 14.1023,
      "eval_samples_per_second": 482.05,
      "eval_steps_per_second": 60.274,
      "step": 989
    },
    {
      "epoch": 2.0222446916076846,
      "grad_norm": 0.2395874410867691,
      "learning_rate": 3.9878542510121455e-05,
      "loss": 0.0037,
      "step": 1000
    },
    {
      "epoch": 2.998988877654196,
      "eval_accuracy": 0.9983575694624772,
      "eval_f1": 0.9049904030710172,
      "eval_loss": 0.006752336397767067,
      "eval_precision": 0.8972407231208372,
      "eval_recall": 0.9128751210067764,
      "eval_runtime": 13.9972,
      "eval_samples_per_second": 485.67,
      "eval_steps_per_second": 60.727,
      "step": 1483
    },
    {
      "epoch": 3.033367037411527,
      "grad_norm": 0.0013774348190054297,
      "learning_rate": 3.481781376518219e-05,
      "loss": 0.0021,
      "step": 1500
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.998338094001558,
      "eval_f1": 0.9043805934997644,
      "eval_loss": 0.006901361979544163,
      "eval_precision": 0.8807339449541285,
      "eval_recall": 0.9293320425943853,
      "eval_runtime": 14.3886,
      "eval_samples_per_second": 472.458,
      "eval_steps_per_second": 59.075,
      "step": 1978
    },
    {
      "epoch": 4.044489383215369,
      "grad_norm": 0.13544714450836182,
      "learning_rate": 2.9757085020242914e-05,
      "loss": 0.0012,
      "step": 2000
    },
    {
      "epoch": 4.998988877654196,
      "eval_accuracy": 0.9984224876655414,
      "eval_f1": 0.9041745730550285,
      "eval_loss": 0.007279807701706886,
      "eval_precision": 0.8865116279069768,
      "eval_recall": 0.9225556631171346,
      "eval_runtime": 14.0239,
      "eval_samples_per_second": 484.743,
      "eval_steps_per_second": 60.611,
      "step": 2472
    },
    {
      "epoch": 5.055611729019211,
      "grad_norm": 0.001985458889976144,
      "learning_rate": 2.4696356275303644e-05,
      "loss": 0.0006,
      "step": 2500
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.9984354713061543,
      "eval_f1": 0.9118483412322275,
      "eval_loss": 0.0077171181328594685,
      "eval_precision": 0.89322191272052,
      "eval_recall": 0.9312681510164569,
      "eval_runtime": 14.0472,
      "eval_samples_per_second": 483.939,
      "eval_steps_per_second": 60.51,
      "step": 2967
    },
    {
      "epoch": 6.066734074823054,
      "grad_norm": 0.015543761663138866,
      "learning_rate": 1.9635627530364373e-05,
      "loss": 0.0004,
      "step": 3000
    },
    {
      "epoch": 6.998988877654196,
      "eval_accuracy": 0.998526356790444,
      "eval_f1": 0.9123809523809524,
      "eval_loss": 0.0071807485073804855,
      "eval_precision": 0.8978444236176195,
      "eval_recall": 0.9273959341723137,
      "eval_runtime": 14.0553,
      "eval_samples_per_second": 483.66,
      "eval_steps_per_second": 60.475,
      "step": 3461
    },
    {
      "epoch": 7.077856420626896,
      "grad_norm": 0.0003612766449805349,
      "learning_rate": 1.4574898785425101e-05,
      "loss": 0.0004,
      "step": 3500
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.9985847831732018,
      "eval_f1": 0.9133171912832929,
      "eval_loss": 0.007767966017127037,
      "eval_precision": 0.9137596899224806,
      "eval_recall": 0.9128751210067764,
      "eval_runtime": 14.0606,
      "eval_samples_per_second": 483.479,
      "eval_steps_per_second": 60.453,
      "step": 3956
    },
    {
      "epoch": 8.088978766430738,
      "grad_norm": 0.0004361484607215971,
      "learning_rate": 9.51417004048583e-06,
      "loss": 0.0001,
      "step": 4000
    },
    {
      "epoch": 8.998988877654195,
      "eval_accuracy": 0.9985523240716697,
      "eval_f1": 0.9138431752178122,
      "eval_loss": 0.00841750018298626,
      "eval_precision": 0.9138431752178122,
      "eval_recall": 0.9138431752178122,
      "eval_runtime": 14.3137,
      "eval_samples_per_second": 474.93,
      "eval_steps_per_second": 59.384,
      "step": 4450
    },
    {
      "epoch": 9.100101112234581,
      "grad_norm": 0.00019355813856236637,
      "learning_rate": 4.453441295546559e-06,
      "loss": 0.0001,
      "step": 4500
    },
    {
      "epoch": 9.989888776541962,
      "eval_accuracy": 0.9985198649701377,
      "eval_f1": 0.9140096618357488,
      "eval_loss": 0.008521749638020992,
      "eval_precision": 0.9122468659594986,
      "eval_recall": 0.9157792836398838,
      "eval_runtime": 14.4488,
      "eval_samples_per_second": 470.491,
      "eval_steps_per_second": 58.829,
      "step": 4940
    },
    {
      "epoch": 9.989888776541962,
      "step": 4940,
      "total_flos": 1.7928149517546354e+16,
      "train_loss": 0.002201772875978276,
      "train_runtime": 1511.1925,
      "train_samples_per_second": 209.232,
      "train_steps_per_second": 3.269
    }
  ],
  "logging_steps": 500,
  "max_steps": 4940,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.7928149517546354e+16,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}