{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.007328423289729215,
  "eval_steps": 5,
  "global_step": 25,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0002931369315891686,
      "grad_norm": 0.016307968646287918,
      "learning_rate": 2e-05,
      "loss": 11.9301,
      "step": 1
    },
    {
      "epoch": 0.0002931369315891686,
      "eval_loss": 11.929496765136719,
      "eval_runtime": 24.7836,
      "eval_samples_per_second": 115.923,
      "eval_steps_per_second": 57.982,
      "step": 1
    },
    {
      "epoch": 0.0005862738631783372,
      "grad_norm": 0.01964600197970867,
      "learning_rate": 4e-05,
      "loss": 11.9297,
      "step": 2
    },
    {
      "epoch": 0.0008794107947675058,
      "grad_norm": 0.014348401688039303,
      "learning_rate": 6e-05,
      "loss": 11.9295,
      "step": 3
    },
    {
      "epoch": 0.0011725477263566744,
      "grad_norm": 0.019164111465215683,
      "learning_rate": 8e-05,
      "loss": 11.9306,
      "step": 4
    },
    {
      "epoch": 0.0014656846579458429,
      "grad_norm": 0.019603189080953598,
      "learning_rate": 0.0001,
      "loss": 11.93,
      "step": 5
    },
    {
      "epoch": 0.0014656846579458429,
      "eval_loss": 11.929431915283203,
      "eval_runtime": 24.8869,
      "eval_samples_per_second": 115.442,
      "eval_steps_per_second": 57.741,
      "step": 5
    },
    {
      "epoch": 0.0017588215895350116,
      "grad_norm": 0.016719115898013115,
      "learning_rate": 0.00012,
      "loss": 11.9301,
      "step": 6
    },
    {
      "epoch": 0.0020519585211241803,
      "grad_norm": 0.019666332751512527,
      "learning_rate": 0.00014,
      "loss": 11.9303,
      "step": 7
    },
    {
      "epoch": 0.0023450954527133487,
      "grad_norm": 0.02202892117202282,
      "learning_rate": 0.00016,
      "loss": 11.93,
      "step": 8
    },
    {
      "epoch": 0.0026382323843025172,
      "grad_norm": 0.02416735514998436,
      "learning_rate": 0.00018,
      "loss": 11.9272,
      "step": 9
    },
    {
      "epoch": 0.0029313693158916857,
      "grad_norm": 0.020293623208999634,
      "learning_rate": 0.0002,
      "loss": 11.9288,
      "step": 10
    },
    {
      "epoch": 0.0029313693158916857,
      "eval_loss": 11.929161071777344,
      "eval_runtime": 24.9042,
      "eval_samples_per_second": 115.362,
      "eval_steps_per_second": 57.701,
      "step": 10
    },
    {
      "epoch": 0.0032245062474808546,
      "grad_norm": 0.019572442397475243,
      "learning_rate": 0.0001996917333733128,
      "loss": 11.9261,
      "step": 11
    },
    {
      "epoch": 0.003517643179070023,
      "grad_norm": 0.017557360231876373,
      "learning_rate": 0.00019876883405951377,
      "loss": 11.9293,
      "step": 12
    },
    {
      "epoch": 0.0038107801106591916,
      "grad_norm": 0.016772069036960602,
      "learning_rate": 0.00019723699203976766,
      "loss": 11.9312,
      "step": 13
    },
    {
      "epoch": 0.0041039170422483605,
      "grad_norm": 0.024416593834757805,
      "learning_rate": 0.00019510565162951537,
      "loss": 11.9293,
      "step": 14
    },
    {
      "epoch": 0.004397053973837529,
      "grad_norm": 0.025569766759872437,
      "learning_rate": 0.0001923879532511287,
      "loss": 11.9288,
      "step": 15
    },
    {
      "epoch": 0.004397053973837529,
      "eval_loss": 11.928751945495605,
      "eval_runtime": 24.8857,
      "eval_samples_per_second": 115.448,
      "eval_steps_per_second": 57.744,
      "step": 15
    },
    {
      "epoch": 0.0046901909054266975,
      "grad_norm": 0.018450522795319557,
      "learning_rate": 0.0001891006524188368,
      "loss": 11.929,
      "step": 16
    },
    {
      "epoch": 0.004983327837015866,
      "grad_norm": 0.02540157176554203,
      "learning_rate": 0.00018526401643540922,
      "loss": 11.9273,
      "step": 17
    },
    {
      "epoch": 0.0052764647686050345,
      "grad_norm": 0.0236028004437685,
      "learning_rate": 0.00018090169943749476,
      "loss": 11.9276,
      "step": 18
    },
    {
      "epoch": 0.005569601700194203,
      "grad_norm": 0.02670389786362648,
      "learning_rate": 0.0001760405965600031,
      "loss": 11.9295,
      "step": 19
    },
    {
      "epoch": 0.005862738631783371,
      "grad_norm": 0.02101299911737442,
      "learning_rate": 0.00017071067811865476,
      "loss": 11.9294,
      "step": 20
    },
    {
      "epoch": 0.005862738631783371,
      "eval_loss": 11.928288459777832,
      "eval_runtime": 24.834,
      "eval_samples_per_second": 115.688,
      "eval_steps_per_second": 57.864,
      "step": 20
    },
    {
      "epoch": 0.00615587556337254,
      "grad_norm": 0.02786540612578392,
      "learning_rate": 0.00016494480483301836,
      "loss": 11.9298,
      "step": 21
    },
    {
      "epoch": 0.006449012494961709,
      "grad_norm": 0.024821242317557335,
      "learning_rate": 0.00015877852522924732,
      "loss": 11.928,
      "step": 22
    },
    {
      "epoch": 0.006742149426550877,
      "grad_norm": 0.026225125417113304,
      "learning_rate": 0.0001522498564715949,
      "loss": 11.9285,
      "step": 23
    },
    {
      "epoch": 0.007035286358140046,
      "grad_norm": 0.026419425383210182,
      "learning_rate": 0.00014539904997395468,
      "loss": 11.9279,
      "step": 24
    },
    {
      "epoch": 0.007328423289729215,
      "grad_norm": 0.027492975816130638,
      "learning_rate": 0.000138268343236509,
      "loss": 11.9283,
      "step": 25
    },
    {
      "epoch": 0.007328423289729215,
      "eval_loss": 11.927799224853516,
      "eval_runtime": 24.8718,
      "eval_samples_per_second": 115.512,
      "eval_steps_per_second": 57.776,
      "step": 25
    }
  ],
  "logging_steps": 1,
  "max_steps": 50,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 37473484800.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}