{
    "epoch": 0.94,
    "eval_logits/chosen": -2.892765760421753,
    "eval_logits/rejected": -2.870206356048584,
    "eval_logps/chosen": -255.6932830810547,
    "eval_logps/rejected": -237.85133361816406,
    "eval_loss": 0.6655747294425964,
    "eval_rewards/accuracies": 0.6899999976158142,
    "eval_rewards/chosen": 0.03882095217704773,
    "eval_rewards/margins": 0.06518173217773438,
    "eval_rewards/rejected": -0.026360776275396347,
    "eval_runtime": 905.2491,
    "eval_samples": 2000,
    "eval_samples_per_second": 2.209,
    "eval_steps_per_second": 0.552,
    "train_loss": 0.6761519227709089,
    "train_runtime": 40312.7822,
    "train_samples": 61135,
    "train_samples_per_second": 1.517,
    "train_steps_per_second": 0.0
}