File size: 3,373 Bytes

619ebd9
 
 
9d869fd
619ebd9
9d869fd
619ebd9
 
 
 
 
9d869fd
 
 
 
619ebd9
 
 
9d869fd
 
 
 
 
 
619ebd9
 
 
9d869fd
 
 
 
 
619ebd9
 
9d869fd
 
619ebd9
9d869fd
 
619ebd9
 
9d869fd
 
 
 
 
 
619ebd9
 
 
9d869fd
 
 
 
 
619ebd9
 
9d869fd
 
619ebd9
9d869fd
 
619ebd9
 
9d869fd
 
 
 
 
 
619ebd9
 
 
9d869fd
 
 
 
 
619ebd9
 
9d869fd
 
 
 
 
 
619ebd9
 
9d869fd
 
619ebd9
9d869fd
 
619ebd9
 
 
9d869fd
 
 
 
 
619ebd9
 
9d869fd
 
 
 
 
 
619ebd9
 
9d869fd
 
619ebd9
9d869fd
 
619ebd9
 
9d869fd
 
 
 
 
 
619ebd9
 
9d869fd
 
 
 
 
 
 
619ebd9
 
 
9d869fd
619ebd9
 
 
9d869fd
619ebd9

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 10.0,
  "eval_steps": 500,
  "global_step": 20,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.5,
      "grad_norm": 173.0,
      "learning_rate": 0.0001,
      "loss": 45.5656,
      "step": 1
    },
    {
      "epoch": 1.0,
      "eval_loss": 16.504554748535156,
      "eval_runtime": 0.2461,
      "eval_samples_per_second": 40.635,
      "eval_steps_per_second": 4.063,
      "step": 2
    },
    {
      "epoch": 2.0,
      "eval_loss": 14.199999809265137,
      "eval_runtime": 0.2394,
      "eval_samples_per_second": 41.776,
      "eval_steps_per_second": 4.178,
      "step": 4
    },
    {
      "epoch": 2.5,
      "grad_norm": 31.5,
      "learning_rate": 0.00018660254037844388,
      "loss": 35.6654,
      "step": 5
    },
    {
      "epoch": 3.0,
      "eval_loss": 12.994392395019531,
      "eval_runtime": 0.2412,
      "eval_samples_per_second": 41.452,
      "eval_steps_per_second": 4.145,
      "step": 6
    },
    {
      "epoch": 4.0,
      "eval_loss": 11.569496154785156,
      "eval_runtime": 0.2326,
      "eval_samples_per_second": 42.992,
      "eval_steps_per_second": 4.299,
      "step": 8
    },
    {
      "epoch": 5.0,
      "grad_norm": 10.5,
      "learning_rate": 0.00011736481776669306,
      "loss": 22.2461,
      "step": 10
    },
    {
      "epoch": 5.0,
      "eval_loss": 10.306487083435059,
      "eval_runtime": 0.2322,
      "eval_samples_per_second": 43.073,
      "eval_steps_per_second": 4.307,
      "step": 10
    },
    {
      "epoch": 6.0,
      "eval_loss": 9.36452579498291,
      "eval_runtime": 0.2332,
      "eval_samples_per_second": 42.887,
      "eval_steps_per_second": 4.289,
      "step": 12
    },
    {
      "epoch": 7.0,
      "eval_loss": 8.907111167907715,
      "eval_runtime": 0.2345,
      "eval_samples_per_second": 42.648,
      "eval_steps_per_second": 4.265,
      "step": 14
    },
    {
      "epoch": 7.5,
      "grad_norm": 4.5,
      "learning_rate": 3.5721239031346066e-05,
      "loss": 19.7508,
      "step": 15
    },
    {
      "epoch": 8.0,
      "eval_loss": 8.693410873413086,
      "eval_runtime": 0.2425,
      "eval_samples_per_second": 41.229,
      "eval_steps_per_second": 4.123,
      "step": 16
    },
    {
      "epoch": 9.0,
      "eval_loss": 8.628682136535645,
      "eval_runtime": 0.2394,
      "eval_samples_per_second": 41.765,
      "eval_steps_per_second": 4.177,
      "step": 18
    },
    {
      "epoch": 10.0,
      "grad_norm": 4.125,
      "learning_rate": 0.0,
      "loss": 19.172,
      "step": 20
    },
    {
      "epoch": 10.0,
      "eval_loss": 8.61988639831543,
      "eval_runtime": 0.232,
      "eval_samples_per_second": 43.094,
      "eval_steps_per_second": 4.309,
      "step": 20
    },
    {
      "epoch": 10.0,
      "step": 20,
      "total_flos": 6.098355666236211e+16,
      "train_loss": 24.70357437133789,
      "train_runtime": 50.9898,
      "train_samples_per_second": 21.769,
      "train_steps_per_second": 0.392
    }
  ],
  "logging_steps": 5,
  "max_steps": 20,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 100,
  "total_flos": 6.098355666236211e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}