{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.985781990521327,
  "eval_steps": 100,
  "global_step": 52,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.02,
      "grad_norm": 244.8721456152185,
      "learning_rate": 8.333333333333333e-08,
      "logits/chosen": 124.78954315185547,
      "logits/rejected": 100.39772033691406,
      "logps/chosen": -796.0274658203125,
      "logps/rejected": -794.6148071289062,
      "loss": 0.6931,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1
    },
    {
      "epoch": 0.19,
      "grad_norm": 368.65122304087805,
      "learning_rate": 4.907293218369498e-07,
      "logits/chosen": 112.4518814086914,
      "logits/rejected": 134.5890655517578,
      "logps/chosen": -765.5065307617188,
      "logps/rejected": -864.3118286132812,
      "loss": 0.7748,
      "rewards/accuracies": 0.5208333134651184,
      "rewards/chosen": 1.3156064748764038,
      "rewards/margins": 0.3313724994659424,
      "rewards/rejected": 0.9842338562011719,
      "step": 10
    },
    {
      "epoch": 0.38,
      "grad_norm": 149.0189625077011,
      "learning_rate": 3.941700805287168e-07,
      "logits/chosen": 121.66800689697266,
      "logits/rejected": 133.4822540283203,
      "logps/chosen": -781.7298583984375,
      "logps/rejected": -874.7434692382812,
      "loss": 0.6002,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": -0.5688278675079346,
      "rewards/margins": 0.9308306574821472,
      "rewards/rejected": -1.499658465385437,
      "step": 20
    },
    {
      "epoch": 0.57,
      "grad_norm": 147.76046578027186,
      "learning_rate": 2.3293939665883228e-07,
      "logits/chosen": 117.63569641113281,
      "logits/rejected": 121.6900863647461,
      "logps/chosen": -799.3150634765625,
      "logps/rejected": -875.8349609375,
      "loss": 0.5594,
      "rewards/accuracies": 0.793749988079071,
      "rewards/chosen": 0.4851824641227722,
      "rewards/margins": 1.7067598104476929,
      "rewards/rejected": -1.2215770483016968,
      "step": 30
    },
    {
      "epoch": 0.76,
      "grad_norm": 256.23145528312574,
      "learning_rate": 7.936171419533652e-08,
      "logits/chosen": 121.34794616699219,
      "logits/rejected": 116.52691650390625,
      "logps/chosen": -817.7227172851562,
      "logps/rejected": -839.1307373046875,
      "loss": 0.5394,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.21919576823711395,
      "rewards/margins": 1.1367448568344116,
      "rewards/rejected": -0.9175491333007812,
      "step": 40
    },
    {
      "epoch": 0.95,
      "grad_norm": 183.47584962413794,
      "learning_rate": 2.328513490917311e-09,
      "logits/chosen": 131.08836364746094,
      "logits/rejected": 130.64154052734375,
      "logps/chosen": -823.6575927734375,
      "logps/rejected": -865.67431640625,
      "loss": 0.5246,
      "rewards/accuracies": 0.706250011920929,
      "rewards/chosen": 0.5636774897575378,
      "rewards/margins": 1.3959708213806152,
      "rewards/rejected": -0.8322933316230774,
      "step": 50
    },
    {
      "epoch": 0.99,
      "step": 52,
      "total_flos": 0.0,
      "train_loss": 0.5969172991239108,
      "train_runtime": 576.3983,
      "train_samples_per_second": 11.711,
      "train_steps_per_second": 0.09
    }
  ],
  "logging_steps": 10,
  "max_steps": 52,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}