{
  "best_metric": 0.5115958993985192,
  "best_model_checkpoint": "distilbert-base-uncased-finetuned-cola/run-5/checkpoint-1340",
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 1340,
  "is_hyper_param_search": true,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "eval_loss": 0.46541309356689453,
      "eval_matthews_correlation": 0.4611631351812362,
      "eval_runtime": 0.7349,
      "eval_samples_per_second": 1419.226,
      "eval_steps_per_second": 89.807,
      "step": 268
    },
    {
      "epoch": 1.87,
      "grad_norm": 5.322132587432861,
      "learning_rate": 2.8926577590888014e-05,
      "loss": 0.415,
      "step": 500
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.5235322117805481,
      "eval_matthews_correlation": 0.48584699342231225,
      "eval_runtime": 0.8286,
      "eval_samples_per_second": 1258.804,
      "eval_steps_per_second": 79.656,
      "step": 536
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.6811769604682922,
      "eval_matthews_correlation": 0.4886634303966225,
      "eval_runtime": 1.1682,
      "eval_samples_per_second": 892.827,
      "eval_steps_per_second": 56.497,
      "step": 804
    },
    {
      "epoch": 3.73,
      "grad_norm": 5.797658920288086,
      "learning_rate": 1.1708376643930863e-05,
      "loss": 0.1523,
      "step": 1000
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.8018879294395447,
      "eval_matthews_correlation": 0.5029119946692125,
      "eval_runtime": 0.7895,
      "eval_samples_per_second": 1321.02,
      "eval_steps_per_second": 83.593,
      "step": 1072
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.930472731590271,
      "eval_matthews_correlation": 0.5115958993985192,
      "eval_runtime": 1.1184,
      "eval_samples_per_second": 932.607,
      "eval_steps_per_second": 59.014,
      "step": 1340
    }
  ],
  "logging_steps": 500,
  "max_steps": 1340,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 191380204405152.0,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": {
    "learning_rate": 4.6144778537845165e-05,
    "num_train_epochs": 5,
    "per_device_train_batch_size": 32,
    "seed": 3
  }
}