File size: 3,151 Bytes

112e9da
 
 
 
 
c867613
112e9da
 
 
 
 
 
258d58c
c867613
258d58c
c867613
112e9da
 
 
 
258d58c
 
112e9da
258d58c
 
 
 
 
c867613
112e9da
 
 
258d58c
c867613
258d58c
c867613
112e9da
 
 
 
258d58c
 
112e9da
258d58c
 
 
 
 
c867613
112e9da
 
 
258d58c
c867613
258d58c
c867613
112e9da
 
 
 
258d58c
 
112e9da
258d58c
 
 
 
 
c867613
112e9da
 
 
258d58c
c867613
258d58c
c867613
112e9da
 
 
 
258d58c
 
112e9da
258d58c
 
 
 
 
c867613
112e9da
 
 
258d58c
112e9da
258d58c
c867613
112e9da
 
 
 
258d58c
 
112e9da
258d58c
 
 
 
 
c867613
112e9da
 
 
c867613
258d58c
 
 
 
 
112e9da
 
 
c867613
112e9da
 
 
258d58c
c867613
112e9da

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 4470,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 1.5868409872055054,
      "learning_rate": 0.0008,
      "loss": 0.7823,
      "step": 894
    },
    {
      "epoch": 1.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5091907978057861,
      "eval_rouge1": 0.6551,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6537,
      "eval_rougeLsum": 0.6535,
      "eval_runtime": 38.6735,
      "eval_samples_per_second": 19.316,
      "eval_steps_per_second": 0.621,
      "step": 894
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5867279171943665,
      "learning_rate": 0.0006,
      "loss": 0.6005,
      "step": 1788
    },
    {
      "epoch": 2.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.47693932056427,
      "eval_rouge1": 0.6706,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6693,
      "eval_rougeLsum": 0.6688,
      "eval_runtime": 38.2912,
      "eval_samples_per_second": 19.508,
      "eval_steps_per_second": 0.627,
      "step": 1788
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6152400970458984,
      "learning_rate": 0.0004,
      "loss": 0.5564,
      "step": 2682
    },
    {
      "epoch": 3.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.4768148362636566,
      "eval_rouge1": 0.6725,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6709,
      "eval_rougeLsum": 0.6731,
      "eval_runtime": 38.223,
      "eval_samples_per_second": 19.543,
      "eval_steps_per_second": 0.628,
      "step": 2682
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.3360026776790619,
      "learning_rate": 0.0002,
      "loss": 0.5269,
      "step": 3576
    },
    {
      "epoch": 4.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.4666813910007477,
      "eval_rouge1": 0.6722,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6726,
      "eval_rougeLsum": 0.6742,
      "eval_runtime": 37.865,
      "eval_samples_per_second": 19.728,
      "eval_steps_per_second": 0.634,
      "step": 3576
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.6582946181297302,
      "learning_rate": 0.0,
      "loss": 0.5061,
      "step": 4470
    },
    {
      "epoch": 5.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.4682966470718384,
      "eval_rouge1": 0.6725,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6711,
      "eval_rougeLsum": 0.6719,
      "eval_runtime": 38.3475,
      "eval_samples_per_second": 19.48,
      "eval_steps_per_second": 0.626,
      "step": 4470
    },
    {
      "epoch": 5.0,
      "step": 4470,
      "total_flos": 4.93143020273664e+16,
      "train_loss": 0.5944349318809424,
      "train_runtime": 3932.2853,
      "train_samples_per_second": 18.17,
      "train_steps_per_second": 1.137
    }
  ],
  "logging_steps": 500,
  "max_steps": 4470,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 4.93143020273664e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}