File size: 3,155 Bytes

fdd45e2
 
 
 
 
8801a21
fdd45e2
 
 
 
 
 
7c340b7
8801a21
7c340b7
8801a21
fdd45e2
 
 
 
7c340b7
 
fdd45e2
7c340b7
 
 
 
 
8801a21
fdd45e2
 
 
7c340b7
8801a21
7c340b7
8801a21
fdd45e2
 
 
 
7c340b7
 
fdd45e2
7c340b7
 
 
 
 
8801a21
fdd45e2
 
 
7c340b7
8801a21
7c340b7
8801a21
fdd45e2
 
 
 
7c340b7
 
fdd45e2
7c340b7
 
 
 
 
8801a21
fdd45e2
 
 
7c340b7
8801a21
7c340b7
8801a21
fdd45e2
 
 
 
7c340b7
 
fdd45e2
7c340b7
 
 
 
 
8801a21
fdd45e2
 
 
7c340b7
fdd45e2
7c340b7
8801a21
fdd45e2
 
 
 
7c340b7
 
fdd45e2
7c340b7
 
 
 
 
8801a21
fdd45e2
 
 
8801a21
 
7c340b7
 
 
 
fdd45e2
 
 
8801a21
fdd45e2
 
 
8801a21
 
fdd45e2

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 4460,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 0.9550127983093262,
      "learning_rate": 0.0008,
      "loss": 3.1762,
      "step": 892
    },
    {
      "epoch": 1.0,
      "eval_gen_len": 1.0,
      "eval_loss": 2.2190332412719727,
      "eval_rouge1": 0.7537,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.7549,
      "eval_rougeLsum": 0.7532,
      "eval_runtime": 54.3281,
      "eval_samples_per_second": 13.805,
      "eval_steps_per_second": 0.442,
      "step": 892
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.9039629101753235,
      "learning_rate": 0.0006,
      "loss": 2.6396,
      "step": 1784
    },
    {
      "epoch": 2.0,
      "eval_gen_len": 1.0,
      "eval_loss": 1.8944951295852661,
      "eval_rouge1": 0.6963,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6949,
      "eval_rougeLsum": 0.6934,
      "eval_runtime": 51.6713,
      "eval_samples_per_second": 14.515,
      "eval_steps_per_second": 0.464,
      "step": 1784
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.2377656698226929,
      "learning_rate": 0.0004,
      "loss": 2.3694,
      "step": 2676
    },
    {
      "epoch": 3.0,
      "eval_gen_len": 1.0,
      "eval_loss": 1.6951366662979126,
      "eval_rouge1": 0.6912,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6912,
      "eval_rougeLsum": 0.6889,
      "eval_runtime": 51.91,
      "eval_samples_per_second": 14.448,
      "eval_steps_per_second": 0.462,
      "step": 2676
    },
    {
      "epoch": 4.0,
      "grad_norm": 1.069547414779663,
      "learning_rate": 0.0002,
      "loss": 2.1722,
      "step": 3568
    },
    {
      "epoch": 4.0,
      "eval_gen_len": 1.0,
      "eval_loss": 1.5595394372940063,
      "eval_rouge1": 0.6883,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6851,
      "eval_rougeLsum": 0.6883,
      "eval_runtime": 55.5167,
      "eval_samples_per_second": 13.509,
      "eval_steps_per_second": 0.432,
      "step": 3568
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.9467520713806152,
      "learning_rate": 0.0,
      "loss": 2.0114,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "eval_gen_len": 1.0,
      "eval_loss": 1.4508676528930664,
      "eval_rouge1": 0.6893,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6872,
      "eval_rougeLsum": 0.6862,
      "eval_runtime": 50.2723,
      "eval_samples_per_second": 14.919,
      "eval_steps_per_second": 0.477,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "step": 4460,
      "total_flos": 5.530296634048512e+16,
      "train_loss": 2.4737384607973656,
      "train_runtime": 5670.119,
      "train_samples_per_second": 12.576,
      "train_steps_per_second": 0.787
    }
  ],
  "logging_steps": 500,
  "max_steps": 4460,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 5.530296634048512e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}