File size: 2,830 Bytes

66ca1ff
 
 
 
 
 
 
 
 
 
 
 
c54f21f
 
 
66ca1ff
 
 
 
c54f21f
 
 
66ca1ff
 
 
 
c54f21f
 
 
66ca1ff
 
 
 
c54f21f
 
 
66ca1ff
 
 
 
c54f21f
 
 
66ca1ff
 
 
 
c54f21f
 
 
66ca1ff
 
 
 
c54f21f
 
 
66ca1ff
 
 
 
c54f21f
 
 
66ca1ff
 
 
 
c54f21f
 
 
66ca1ff
 
 
 
c54f21f
 
 
66ca1ff
 
 
 
c54f21f
 
 
66ca1ff
 
 
 
c54f21f
66ca1ff
c54f21f
66ca1ff
 
 
 
 
 
c54f21f
 
 
 
66ca1ff

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.84,
  "eval_steps": 500,
  "global_step": 24,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.32,
      "grad_norm": 0.20171859860420227,
      "learning_rate": 9.166666666666667e-05,
      "loss": 6.7889,
      "step": 2
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.2258663922548294,
      "learning_rate": 8.333333333333334e-05,
      "loss": 6.8518,
      "step": 4
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.2266591638326645,
      "learning_rate": 7.500000000000001e-05,
      "loss": 6.8562,
      "step": 6
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.19837072491645813,
      "learning_rate": 6.666666666666667e-05,
      "loss": 6.8282,
      "step": 8
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.17619071900844574,
      "learning_rate": 5.833333333333334e-05,
      "loss": 6.8528,
      "step": 10
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.12639087438583374,
      "learning_rate": 5e-05,
      "loss": 6.8231,
      "step": 12
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.13687172532081604,
      "learning_rate": 4.166666666666667e-05,
      "loss": 6.7815,
      "step": 14
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.18898847699165344,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 6.7792,
      "step": 16
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.1648869514465332,
      "learning_rate": 2.5e-05,
      "loss": 6.8046,
      "step": 18
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.16822992265224457,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 6.8128,
      "step": 20
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.16933274269104004,
      "learning_rate": 8.333333333333334e-06,
      "loss": 6.8081,
      "step": 22
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.1729530692100525,
      "learning_rate": 0.0,
      "loss": 6.8425,
      "step": 24
    },
    {
      "epoch": 3.84,
      "step": 24,
      "total_flos": 92571267829680.0,
      "train_loss": 6.819143931070964,
      "train_runtime": 117.2771,
      "train_samples_per_second": 3.411,
      "train_steps_per_second": 0.205
    }
  ],
  "logging_steps": 2,
  "max_steps": 24,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 92571267829680.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}