File size: 2,632 Bytes

a43e91e
 
 
3a0314f
 
a43e91e
 
 
 
 
3a0314f
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
3a0314f
 
 
 
 
b6e642a
 
 
 
 
a43e91e
 
3a0314f
 
b6e642a
a43e91e

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 10.0,
  "global_step": 8750,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.57,
      "learning_rate": 4.714285714285714e-05,
      "loss": 2.1596,
      "step": 500
    },
    {
      "epoch": 1.14,
      "learning_rate": 4.428571428571428e-05,
      "loss": 2.1314,
      "step": 1000
    },
    {
      "epoch": 1.71,
      "learning_rate": 4.1428571428571437e-05,
      "loss": 2.055,
      "step": 1500
    },
    {
      "epoch": 2.29,
      "learning_rate": 3.857142857142858e-05,
      "loss": 2.0122,
      "step": 2000
    },
    {
      "epoch": 2.86,
      "learning_rate": 3.571428571428572e-05,
      "loss": 1.9833,
      "step": 2500
    },
    {
      "epoch": 3.43,
      "learning_rate": 3.285714285714286e-05,
      "loss": 1.9181,
      "step": 3000
    },
    {
      "epoch": 4.0,
      "learning_rate": 3e-05,
      "loss": 1.9276,
      "step": 3500
    },
    {
      "epoch": 4.57,
      "learning_rate": 2.714285714285714e-05,
      "loss": 1.8599,
      "step": 4000
    },
    {
      "epoch": 5.14,
      "learning_rate": 2.4285714285714288e-05,
      "loss": 1.8608,
      "step": 4500
    },
    {
      "epoch": 5.71,
      "learning_rate": 2.1428571428571428e-05,
      "loss": 1.8234,
      "step": 5000
    },
    {
      "epoch": 6.29,
      "learning_rate": 1.8571428571428572e-05,
      "loss": 1.8171,
      "step": 5500
    },
    {
      "epoch": 6.86,
      "learning_rate": 1.5714285714285715e-05,
      "loss": 1.7907,
      "step": 6000
    },
    {
      "epoch": 7.43,
      "learning_rate": 1.2857142857142857e-05,
      "loss": 1.7693,
      "step": 6500
    },
    {
      "epoch": 8.0,
      "learning_rate": 1e-05,
      "loss": 1.7666,
      "step": 7000
    },
    {
      "epoch": 8.57,
      "learning_rate": 7.142857142857143e-06,
      "loss": 1.7393,
      "step": 7500
    },
    {
      "epoch": 9.14,
      "learning_rate": 4.285714285714286e-06,
      "loss": 1.7473,
      "step": 8000
    },
    {
      "epoch": 9.71,
      "learning_rate": 1.4285714285714286e-06,
      "loss": 1.7235,
      "step": 8500
    },
    {
      "epoch": 10.0,
      "step": 8750,
      "total_flos": 4.261233268518912e+16,
      "train_loss": 1.883265816824777,
      "train_runtime": 6265.8424,
      "train_samples_per_second": 11.172,
      "train_steps_per_second": 1.396
    }
  ],
  "max_steps": 8750,
  "num_train_epochs": 10,
  "total_flos": 4.261233268518912e+16,
  "trial_name": null,
  "trial_params": null
}