File size: 3,160 Bytes

9f78c1c
 
 
 
 
6e51b40
9f78c1c
 
 
 
 
 
6e51b40
 
 
 
9f78c1c
 
 
 
6e51b40
 
9f78c1c
6e51b40
 
 
 
 
 
9f78c1c
 
 
6e51b40
 
 
 
9f78c1c
 
 
 
6e51b40
 
9f78c1c
6e51b40
 
 
 
 
 
9f78c1c
 
 
6e51b40
 
 
 
9f78c1c
 
 
 
6e51b40
 
9f78c1c
6e51b40
 
 
 
 
 
9f78c1c
 
 
6e51b40
 
 
 
9f78c1c
 
 
 
6e51b40
 
9f78c1c
6e51b40
 
 
 
 
 
9f78c1c
 
 
6e51b40
9f78c1c
6e51b40
 
9f78c1c
 
 
 
6e51b40
 
9f78c1c
6e51b40
 
 
 
 
 
9f78c1c
 
 
6e51b40
 
 
 
 
 
9f78c1c
 
 
6e51b40
9f78c1c
 
 
6e51b40
 
9f78c1c

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 17830,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 2.377143144607544,
      "learning_rate": 4e-05,
      "loss": 0.6316,
      "step": 3566
    },
    {
      "epoch": 1.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.48070013523101807,
      "eval_rouge1": 0.4602,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.4604,
      "eval_rougeLsum": 0.4565,
      "eval_runtime": 339.8998,
      "eval_samples_per_second": 2.204,
      "eval_steps_per_second": 0.277,
      "step": 3566
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.1111056804656982,
      "learning_rate": 3e-05,
      "loss": 0.4336,
      "step": 7132
    },
    {
      "epoch": 2.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.47169604897499084,
      "eval_rouge1": 0.4661,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.466,
      "eval_rougeLsum": 0.4622,
      "eval_runtime": 338.0027,
      "eval_samples_per_second": 2.216,
      "eval_steps_per_second": 0.278,
      "step": 7132
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.34107506275177,
      "learning_rate": 2e-05,
      "loss": 0.3363,
      "step": 10698
    },
    {
      "epoch": 3.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.4722852408885956,
      "eval_rouge1": 0.4799,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.479,
      "eval_rougeLsum": 0.4762,
      "eval_runtime": 338.8999,
      "eval_samples_per_second": 2.21,
      "eval_steps_per_second": 0.277,
      "step": 10698
    },
    {
      "epoch": 4.0,
      "grad_norm": 2.9266836643218994,
      "learning_rate": 1e-05,
      "loss": 0.2656,
      "step": 14264
    },
    {
      "epoch": 4.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.48245567083358765,
      "eval_rouge1": 0.4713,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.4703,
      "eval_rougeLsum": 0.4666,
      "eval_runtime": 340.0086,
      "eval_samples_per_second": 2.203,
      "eval_steps_per_second": 0.276,
      "step": 14264
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.7729974389076233,
      "learning_rate": 0.0,
      "loss": 0.219,
      "step": 17830
    },
    {
      "epoch": 5.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5102769732475281,
      "eval_rouge1": 0.4427,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.4423,
      "eval_rougeLsum": 0.4403,
      "eval_runtime": 336.8192,
      "eval_samples_per_second": 2.224,
      "eval_steps_per_second": 0.279,
      "step": 17830
    },
    {
      "epoch": 5.0,
      "step": 17830,
      "total_flos": 6.531382403512013e+16,
      "train_loss": 0.37723224017303175,
      "train_runtime": 9322.5764,
      "train_samples_per_second": 7.65,
      "train_steps_per_second": 1.913
    }
  ],
  "logging_steps": 500,
  "max_steps": 17830,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 6.531382403512013e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}