File size: 3,458 Bytes

9fbd17f
7ddaafa
9fbd17f
 
 
 
 
 
 
 
 
 
7ddaafa
 
 
9fbd17f
 
 
 
7ddaafa
 
 
 
 
 
 
 
 
9fbd17f
 
 
 
7ddaafa
 
 
9fbd17f
 
 
 
7ddaafa
 
 
 
 
 
 
 
 
9fbd17f
 
 
 
7ddaafa
 
 
9fbd17f
 
 
 
7ddaafa
 
 
 
 
 
 
 
 
9fbd17f
 
 
 
7ddaafa
 
 
9fbd17f
 
 
 
7ddaafa
 
 
 
 
 
 
 
 
9fbd17f
 
 
 
7ddaafa
 
 
9fbd17f
 
 
 
7ddaafa
 
 
 
 
 
 
 
 
9fbd17f
 
 
 
7ddaafa
9fbd17f
7ddaafa
9fbd17f
 
 
 
 
7ddaafa
 
 
 
9fbd17f

{
  "best_metric": 0.7586408904510837,
  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-23/checkpoint-1070",
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 1070,
  "is_hyper_param_search": true,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 4.89791202545166,
      "learning_rate": 0.0003087091816763773,
      "loss": 0.4811,
      "step": 214
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.7234915055653193,
      "eval_f1": 0.42857142857142855,
      "eval_loss": 0.44225630164146423,
      "eval_mcc": 0.3173839802242578,
      "eval_precision": 0.688715953307393,
      "eval_recall": 0.3110720562390158,
      "eval_runtime": 3.1485,
      "eval_samples_per_second": 542.164,
      "eval_steps_per_second": 17.151,
      "step": 214
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.2303036451339722,
      "learning_rate": 0.00028298341653667917,
      "loss": 0.4399,
      "step": 428
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.7293497363796133,
      "eval_f1": 0.384,
      "eval_loss": 0.43119725584983826,
      "eval_mcc": 0.3377086381007214,
      "eval_precision": 0.7955801104972375,
      "eval_recall": 0.2530755711775044,
      "eval_runtime": 3.2127,
      "eval_samples_per_second": 531.328,
      "eval_steps_per_second": 16.808,
      "step": 428
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.7242010831832886,
      "learning_rate": 0.0002572576513969811,
      "loss": 0.4216,
      "step": 642
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.7439953134153485,
      "eval_f1": 0.450314465408805,
      "eval_loss": 0.42299720644950867,
      "eval_mcc": 0.38011380476662987,
      "eval_precision": 0.7920353982300885,
      "eval_recall": 0.3145869947275923,
      "eval_runtime": 3.144,
      "eval_samples_per_second": 542.939,
      "eval_steps_per_second": 17.176,
      "step": 642
    },
    {
      "epoch": 4.0,
      "grad_norm": 1.6966323852539062,
      "learning_rate": 0.00023153188625728296,
      "loss": 0.4166,
      "step": 856
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.7451669595782073,
      "eval_f1": 0.45692883895131087,
      "eval_loss": 0.4213677942752838,
      "eval_mcc": 0.3831812605460561,
      "eval_precision": 0.7887931034482759,
      "eval_recall": 0.3216168717047452,
      "eval_runtime": 3.2205,
      "eval_samples_per_second": 530.042,
      "eval_steps_per_second": 16.768,
      "step": 856
    },
    {
      "epoch": 5.0,
      "grad_norm": 3.2818307876586914,
      "learning_rate": 0.00020580612111758488,
      "loss": 0.408,
      "step": 1070
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.7586408904510837,
      "eval_f1": 0.5502183406113537,
      "eval_loss": 0.41744720935821533,
      "eval_mcc": 0.42099226702686965,
      "eval_precision": 0.7262247838616714,
      "eval_recall": 0.4428822495606327,
      "eval_runtime": 3.155,
      "eval_samples_per_second": 541.043,
      "eval_steps_per_second": 17.116,
      "step": 1070
    }
  ],
  "logging_steps": 500,
  "max_steps": 2782,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 13,
  "save_steps": 500,
  "total_flos": 2623878322200.0,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": {
    "alpha": 0.7693731022825507,
    "learning_rate": 0.0003344349468160754,
    "num_train_epochs": 13,
    "temperature": 28
  }
}