File size: 3,687 Bytes

9f00398
 
 
f3fbed9
9f00398
f3fbed9
9f00398
 
 
 
 
f3fbed9
 
 
 
9f00398
 
 
f3fbed9
 
 
 
 
 
9f00398
 
f3fbed9
 
 
 
 
9f00398
 
 
f3fbed9
 
 
 
 
9f00398
 
f3fbed9
 
 
 
 
9f00398
 
f3fbed9
 
 
 
 
 
9f00398
 
 
f3fbed9
 
 
 
 
9f00398
 
f3fbed9
 
9f00398
f3fbed9
 
9f00398
 
f3fbed9
 
 
 
 
 
9f00398
 
f3fbed9
 
 
 
 
9f00398
 
 
f3fbed9
 
 
 
 
9f00398
 
f3fbed9
 
 
 
 
 
9f00398
 
f3fbed9
 
 
 
 
9f00398
 
 
f3fbed9
 
 
 
 
9f00398
 
f3fbed9
 
9f00398
f3fbed9
 
9f00398
 
f3fbed9
 
 
 
 
 
9f00398
 
f3fbed9
 
 
 
 
 
 
9f00398
 
 
f3fbed9
9f00398
 
 
f3fbed9
9f00398

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 8.571428571428571,
  "eval_steps": 500,
  "global_step": 30,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.2857142857142857,
      "grad_norm": 189.0,
      "learning_rate": 6.666666666666667e-05,
      "loss": 47.9246,
      "step": 1
    },
    {
      "epoch": 0.8571428571428571,
      "eval_loss": 15.484689712524414,
      "eval_runtime": 0.2675,
      "eval_samples_per_second": 37.382,
      "eval_steps_per_second": 3.738,
      "step": 3
    },
    {
      "epoch": 1.4285714285714286,
      "grad_norm": 52.25,
      "learning_rate": 0.00019730448705798239,
      "loss": 38.5919,
      "step": 5
    },
    {
      "epoch": 2.0,
      "eval_loss": 12.549888610839844,
      "eval_runtime": 0.2336,
      "eval_samples_per_second": 42.806,
      "eval_steps_per_second": 4.281,
      "step": 7
    },
    {
      "epoch": 2.857142857142857,
      "grad_norm": 11.375,
      "learning_rate": 0.0001686241637868734,
      "loss": 23.0632,
      "step": 10
    },
    {
      "epoch": 2.857142857142857,
      "eval_loss": 10.153787612915039,
      "eval_runtime": 0.2414,
      "eval_samples_per_second": 41.423,
      "eval_steps_per_second": 4.142,
      "step": 10
    },
    {
      "epoch": 4.0,
      "eval_loss": 8.464659690856934,
      "eval_runtime": 0.2419,
      "eval_samples_per_second": 41.336,
      "eval_steps_per_second": 4.134,
      "step": 14
    },
    {
      "epoch": 4.285714285714286,
      "grad_norm": 4.3125,
      "learning_rate": 0.00011736481776669306,
      "loss": 19.8584,
      "step": 15
    },
    {
      "epoch": 4.857142857142857,
      "eval_loss": 8.02161979675293,
      "eval_runtime": 0.2493,
      "eval_samples_per_second": 40.12,
      "eval_steps_per_second": 4.012,
      "step": 17
    },
    {
      "epoch": 5.714285714285714,
      "grad_norm": 4.21875,
      "learning_rate": 6.039202339608432e-05,
      "loss": 19.1062,
      "step": 20
    },
    {
      "epoch": 6.0,
      "eval_loss": 7.756901741027832,
      "eval_runtime": 0.2345,
      "eval_samples_per_second": 42.648,
      "eval_steps_per_second": 4.265,
      "step": 21
    },
    {
      "epoch": 6.857142857142857,
      "eval_loss": 7.677903175354004,
      "eval_runtime": 0.25,
      "eval_samples_per_second": 40.001,
      "eval_steps_per_second": 4.0,
      "step": 24
    },
    {
      "epoch": 7.142857142857143,
      "grad_norm": 4.46875,
      "learning_rate": 1.6451218858706374e-05,
      "loss": 18.5688,
      "step": 25
    },
    {
      "epoch": 8.0,
      "eval_loss": 7.643762111663818,
      "eval_runtime": 0.2433,
      "eval_samples_per_second": 41.101,
      "eval_steps_per_second": 4.11,
      "step": 28
    },
    {
      "epoch": 8.571428571428571,
      "grad_norm": 4.84375,
      "learning_rate": 0.0,
      "loss": 18.5805,
      "step": 30
    },
    {
      "epoch": 8.571428571428571,
      "eval_loss": 7.6471662521362305,
      "eval_runtime": 0.2333,
      "eval_samples_per_second": 42.859,
      "eval_steps_per_second": 4.286,
      "step": 30
    },
    {
      "epoch": 8.571428571428571,
      "step": 30,
      "total_flos": 9.147533553041408e+16,
      "train_loss": 23.272574106852215,
      "train_runtime": 74.8732,
      "train_samples_per_second": 29.383,
      "train_steps_per_second": 0.401
    }
  ],
  "logging_steps": 5,
  "max_steps": 30,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 100,
  "total_flos": 9.147533553041408e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}