File size: 3,954 Bytes

d3a2774
 
 
e22c1b0
d3a2774
e22c1b0
d3a2774
 
 
 
 
 
 
 
 
 
 
 
 
 
bb65514
 
 
d3a2774
 
 
 
 
 
 
 
 
 
 
bb65514
d3a2774
 
 
 
 
 
bb65514
d3a2774
 
 
 
 
 
 
 
bb65514
d3a2774
 
 
 
bb65514
 
 
 
d3a2774
3e1c35e
 
 
bb65514
3e1c35e
bb65514
3e1c35e
 
 
 
bb65514
3e1c35e
bb65514
3e1c35e
 
 
 
bb65514
3e1c35e
bb65514
3e1c35e
 
 
 
bb65514
3e1c35e
bb65514
3e1c35e
 
 
 
bb65514
3e1c35e
bb65514
3e1c35e
 
 
 
bb65514
 
 
 
3e1c35e
e22c1b0
 
 
bb65514
e22c1b0
bb65514
e22c1b0
 
 
 
bb65514
e22c1b0
bb65514
e22c1b0
 
 
 
bb65514
e22c1b0
bb65514
e22c1b0
 
 
 
bb65514
e22c1b0
bb65514
e22c1b0
 
 
 
bb65514
e22c1b0
bb65514
e22c1b0
 
 
 
bb65514
 
 
 
e22c1b0
d3a2774
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
e22c1b0
d3a2774

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.04240282685512368,
  "eval_steps": 5,
  "global_step": 15,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0028268551236749115,
      "grad_norm": NaN,
      "learning_rate": 0.0,
      "loss": 7.6743,
      "step": 1
    },
    {
      "epoch": 0.0028268551236749115,
      "eval_loss": 7.129258632659912,
      "eval_runtime": 20.9973,
      "eval_samples_per_second": 28.385,
      "eval_steps_per_second": 3.572,
      "step": 1
    },
    {
      "epoch": 0.005653710247349823,
      "grad_norm": NaN,
      "learning_rate": 0.0,
      "loss": 7.3349,
      "step": 2
    },
    {
      "epoch": 0.008480565371024734,
      "grad_norm": 5.082520484924316,
      "learning_rate": 2e-05,
      "loss": 7.4669,
      "step": 3
    },
    {
      "epoch": 0.011307420494699646,
      "grad_norm": 4.920047760009766,
      "learning_rate": 4e-05,
      "loss": 7.1521,
      "step": 4
    },
    {
      "epoch": 0.014134275618374558,
      "grad_norm": NaN,
      "learning_rate": 4e-05,
      "loss": 7.7426,
      "step": 5
    },
    {
      "epoch": 0.014134275618374558,
      "eval_loss": 7.097348213195801,
      "eval_runtime": 20.8903,
      "eval_samples_per_second": 28.53,
      "eval_steps_per_second": 3.59,
      "step": 5
    },
    {
      "epoch": 0.01696113074204947,
      "grad_norm": 4.500086784362793,
      "learning_rate": 6e-05,
      "loss": 7.1859,
      "step": 6
    },
    {
      "epoch": 0.019787985865724382,
      "grad_norm": 3.6024482250213623,
      "learning_rate": 8e-05,
      "loss": 6.9672,
      "step": 7
    },
    {
      "epoch": 0.022614840989399292,
      "grad_norm": 4.331362724304199,
      "learning_rate": 0.0001,
      "loss": 7.2915,
      "step": 8
    },
    {
      "epoch": 0.025441696113074206,
      "grad_norm": 3.071237564086914,
      "learning_rate": 0.00012,
      "loss": 7.2579,
      "step": 9
    },
    {
      "epoch": 0.028268551236749116,
      "grad_norm": 3.218928813934326,
      "learning_rate": 0.00014,
      "loss": 7.0417,
      "step": 10
    },
    {
      "epoch": 0.028268551236749116,
      "eval_loss": 6.332116603851318,
      "eval_runtime": 20.7973,
      "eval_samples_per_second": 28.658,
      "eval_steps_per_second": 3.606,
      "step": 10
    },
    {
      "epoch": 0.03109540636042403,
      "grad_norm": 2.1495420932769775,
      "learning_rate": 0.00016,
      "loss": 6.1519,
      "step": 11
    },
    {
      "epoch": 0.03392226148409894,
      "grad_norm": 2.033008337020874,
      "learning_rate": 0.00018,
      "loss": 6.6133,
      "step": 12
    },
    {
      "epoch": 0.03674911660777385,
      "grad_norm": 2.2604849338531494,
      "learning_rate": 0.0002,
      "loss": 6.1704,
      "step": 13
    },
    {
      "epoch": 0.039575971731448764,
      "grad_norm": 1.981244683265686,
      "learning_rate": 0.00019510565162951537,
      "loss": 6.0664,
      "step": 14
    },
    {
      "epoch": 0.04240282685512368,
      "grad_norm": 1.9168858528137207,
      "learning_rate": 0.00018090169943749476,
      "loss": 5.7705,
      "step": 15
    },
    {
      "epoch": 0.04240282685512368,
      "eval_loss": 5.497771263122559,
      "eval_runtime": 20.7925,
      "eval_samples_per_second": 28.664,
      "eval_steps_per_second": 3.607,
      "step": 15
    }
  ],
  "logging_steps": 1,
  "max_steps": 20,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.989781642805248e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}