{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.05863039399624766,
  "eval_steps": 500,
  "global_step": 1500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003908692933083177,
      "grad_norm": 0.47716134786605835,
      "learning_rate": 4.98240400406663e-05,
      "loss": 1.3868,
      "step": 100
    },
    {
      "epoch": 0.007817385866166354,
      "grad_norm": 0.28900113701820374,
      "learning_rate": 4.9628528974739973e-05,
      "loss": 1.3348,
      "step": 200
    },
    {
      "epoch": 0.01172607879924953,
      "grad_norm": 0.37652796506881714,
      "learning_rate": 4.943301790881364e-05,
      "loss": 1.3298,
      "step": 300
    },
    {
      "epoch": 0.015634771732332707,
      "grad_norm": 0.24992702901363373,
      "learning_rate": 4.923750684288731e-05,
      "loss": 1.3309,
      "step": 400
    },
    {
      "epoch": 0.019543464665415886,
      "grad_norm": 0.3237004280090332,
      "learning_rate": 4.904199577696098e-05,
      "loss": 1.3228,
      "step": 500
    },
    {
      "epoch": 0.02345215759849906,
      "grad_norm": 0.259011447429657,
      "learning_rate": 4.884648471103465e-05,
      "loss": 1.3166,
      "step": 600
    },
    {
      "epoch": 0.02736085053158224,
      "grad_norm": 0.34121841192245483,
      "learning_rate": 4.8650973645108314e-05,
      "loss": 1.3145,
      "step": 700
    },
    {
      "epoch": 0.031269543464665414,
      "grad_norm": 0.41398781538009644,
      "learning_rate": 4.845546257918198e-05,
      "loss": 1.3081,
      "step": 800
    },
    {
      "epoch": 0.03517823639774859,
      "grad_norm": 0.4289904832839966,
      "learning_rate": 4.825995151325565e-05,
      "loss": 1.3073,
      "step": 900
    },
    {
      "epoch": 0.03908692933083177,
      "grad_norm": 0.21226634085178375,
      "learning_rate": 4.8064440447329324e-05,
      "loss": 1.3057,
      "step": 1000
    },
    {
      "epoch": 0.04299562226391495,
      "grad_norm": 0.2929254174232483,
      "learning_rate": 4.786892938140299e-05,
      "loss": 1.3034,
      "step": 1100
    },
    {
      "epoch": 0.04690431519699812,
      "grad_norm": 0.22025109827518463,
      "learning_rate": 4.767341831547666e-05,
      "loss": 1.3048,
      "step": 1200
    },
    {
      "epoch": 0.0508130081300813,
      "grad_norm": 0.36455097794532776,
      "learning_rate": 4.747790724955033e-05,
      "loss": 1.3028,
      "step": 1300
    },
    {
      "epoch": 0.05472170106316448,
      "grad_norm": 0.24527208507061005,
      "learning_rate": 4.728239618362399e-05,
      "loss": 1.2996,
      "step": 1400
    },
    {
      "epoch": 0.05863039399624766,
      "grad_norm": 0.33187615871429443,
      "learning_rate": 4.7086885117697664e-05,
      "loss": 1.3001,
      "step": 1500
    }
  ],
  "logging_steps": 100,
  "max_steps": 25584,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 4194639544320000.0,
  "train_batch_size": 48,
  "trial_name": null,
  "trial_params": null
}