{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9990817263544536,
  "eval_steps": 100,
  "global_step": 204,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 2.3809523809523811e-07,
      "logits/chosen": -2.4272191524505615,
      "logits/rejected": -2.5264763832092285,
      "logps/chosen": -284.54852294921875,
      "logps/rejected": -278.7973937988281,
      "loss": 0.6931,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1
    },
    {
      "epoch": 0.05,
      "learning_rate": 2.380952380952381e-06,
      "logits/chosen": -2.3290278911590576,
      "logits/rejected": -2.328205108642578,
      "logps/chosen": -246.710693359375,
      "logps/rejected": -272.439453125,
      "loss": 0.6921,
      "rewards/accuracies": 0.4826388955116272,
      "rewards/chosen": -0.0037016975693404675,
      "rewards/margins": 0.0010610424214974046,
      "rewards/rejected": -0.00476273987442255,
      "step": 10
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.761904761904762e-06,
      "logits/chosen": -2.2625370025634766,
      "logits/rejected": -2.124138355255127,
      "logps/chosen": -327.4370422363281,
      "logps/rejected": -298.75567626953125,
      "loss": 0.6725,
      "rewards/accuracies": 0.6312500238418579,
      "rewards/chosen": -0.03892877697944641,
      "rewards/margins": 0.05533389002084732,
      "rewards/rejected": -0.09426266700029373,
      "step": 20
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.970219740227693e-06,
      "logits/chosen": -1.744140386581421,
      "logits/rejected": -1.5912563800811768,
      "logps/chosen": -291.50665283203125,
      "logps/rejected": -295.81884765625,
      "loss": 0.638,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": -0.04984436184167862,
      "rewards/margins": 0.1316404938697815,
      "rewards/rejected": -0.1814848631620407,
      "step": 30
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.868186180746792e-06,
      "logits/chosen": -1.2575414180755615,
      "logits/rejected": -1.0377423763275146,
      "logps/chosen": -314.8348693847656,
      "logps/rejected": -329.83135986328125,
      "loss": 0.6177,
      "rewards/accuracies": 0.643750011920929,
      "rewards/chosen": -0.06498919427394867,
      "rewards/margins": 0.218458890914917,
      "rewards/rejected": -0.28344807028770447,
      "step": 40
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.696530612642871e-06,
      "logits/chosen": -0.6212597489356995,
      "logits/rejected": -0.21715529263019562,
      "logps/chosen": -338.0260314941406,
      "logps/rejected": -361.48980712890625,
      "loss": 0.5962,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -0.3069990277290344,
      "rewards/margins": 0.3249819874763489,
      "rewards/rejected": -0.6319809556007385,
      "step": 50
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.460299516441777e-06,
      "logits/chosen": -0.5726237297058105,
      "logits/rejected": -0.35792845487594604,
      "logps/chosen": -302.8526916503906,
      "logps/rejected": -344.1739196777344,
      "loss": 0.5988,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.11208920180797577,
      "rewards/margins": 0.2931365370750427,
      "rewards/rejected": -0.4052257537841797,
      "step": 60
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.1664378205239085e-06,
      "logits/chosen": -0.4383147358894348,
      "logits/rejected": 0.015764247626066208,
      "logps/chosen": -338.99267578125,
      "logps/rejected": -366.92913818359375,
      "loss": 0.5926,
      "rewards/accuracies": 0.6656249761581421,
      "rewards/chosen": -0.42464479804039,
      "rewards/margins": 0.3529706597328186,
      "rewards/rejected": -0.7776154279708862,
      "step": 70
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.8235847280454626e-06,
      "logits/chosen": -0.3457247316837311,
      "logits/rejected": 0.15746600925922394,
      "logps/chosen": -331.336181640625,
      "logps/rejected": -367.11785888671875,
      "loss": 0.5695,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": -0.34933677315711975,
      "rewards/margins": 0.4252432882785797,
      "rewards/rejected": -0.7745801210403442,
      "step": 80
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.441819734087963e-06,
      "logits/chosen": -0.5067733526229858,
      "logits/rejected": -0.06493238359689713,
      "logps/chosen": -326.41778564453125,
      "logps/rejected": -367.9697265625,
      "loss": 0.5776,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.20883163809776306,
      "rewards/margins": 0.48787933588027954,
      "rewards/rejected": -0.6967109441757202,
      "step": 90
    },
    {
      "epoch": 0.49,
      "learning_rate": 3.0323662998460396e-06,
      "logits/chosen": -0.4456128478050232,
      "logits/rejected": 0.1590040922164917,
      "logps/chosen": -360.5113830566406,
      "logps/rejected": -374.990478515625,
      "loss": 0.5641,
      "rewards/accuracies": 0.6968749761581421,
      "rewards/chosen": -0.45012521743774414,
      "rewards/margins": 0.38869690895080566,
      "rewards/rejected": -0.8388221859931946,
      "step": 100
    },
    {
      "epoch": 0.49,
      "eval_logits/chosen": -0.19554802775382996,
      "eval_logits/rejected": 0.4190989136695862,
      "eval_logps/chosen": -360.9577941894531,
      "eval_logps/rejected": -389.6181945800781,
      "eval_loss": 0.561244547367096,
      "eval_rewards/accuracies": 0.7020000219345093,
      "eval_rewards/chosen": -0.5146603584289551,
      "eval_rewards/margins": 0.48187142610549927,
      "eval_rewards/rejected": -0.9965317249298096,
      "eval_runtime": 384.2007,
      "eval_samples_per_second": 5.206,
      "eval_steps_per_second": 0.651,
      "step": 100
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.6072618954988867e-06,
      "logits/chosen": -0.38331469893455505,
      "logits/rejected": 0.39452558755874634,
      "logps/chosen": -356.8583068847656,
      "logps/rejected": -382.3553161621094,
      "loss": 0.5842,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -0.4209090769290924,
      "rewards/margins": 0.4503878653049469,
      "rewards/rejected": -0.8712968826293945,
      "step": 110
    },
    {
      "epoch": 0.59,
      "learning_rate": 2.1790041121336223e-06,
      "logits/chosen": -0.3244672417640686,
      "logits/rejected": 0.1507495939731598,
      "logps/chosen": -335.64337158203125,
      "logps/rejected": -380.47027587890625,
      "loss": 0.562,
      "rewards/accuracies": 0.690625011920929,
      "rewards/chosen": -0.42584747076034546,
      "rewards/margins": 0.4292970597743988,
      "rewards/rejected": -0.8551446199417114,
      "step": 120
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.760183246631777e-06,
      "logits/chosen": -0.13813087344169617,
      "logits/rejected": 0.3486526906490326,
      "logps/chosen": -351.3611755371094,
      "logps/rejected": -383.67578125,
      "loss": 0.5636,
      "rewards/accuracies": 0.659375011920929,
      "rewards/chosen": -0.398489773273468,
      "rewards/margins": 0.465564489364624,
      "rewards/rejected": -0.8640543222427368,
      "step": 130
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.3631121611097364e-06,
      "logits/chosen": -0.17147687077522278,
      "logits/rejected": 0.19206663966178894,
      "logps/chosen": -346.02862548828125,
      "logps/rejected": -374.4810485839844,
      "loss": 0.5619,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.36339110136032104,
      "rewards/margins": 0.4362145960330963,
      "rewards/rejected": -0.799605667591095,
      "step": 140
    },
    {
      "epoch": 0.73,
      "learning_rate": 9.994642986290797e-07,
      "logits/chosen": -0.2303125411272049,
      "logits/rejected": 0.22314348816871643,
      "logps/chosen": -337.1388244628906,
      "logps/rejected": -386.38922119140625,
      "loss": 0.5789,
      "rewards/accuracies": 0.703125,
      "rewards/chosen": -0.4209591746330261,
      "rewards/margins": 0.48169565200805664,
      "rewards/rejected": -0.9026548266410828,
      "step": 150
    },
    {
      "epoch": 0.78,
      "learning_rate": 6.799304971075383e-07,
      "logits/chosen": -0.3279644846916199,
      "logits/rejected": 0.26437437534332275,
      "logps/chosen": -352.1805114746094,
      "logps/rejected": -392.8027648925781,
      "loss": 0.5611,
      "rewards/accuracies": 0.721875011920929,
      "rewards/chosen": -0.3757457137107849,
      "rewards/margins": 0.5236266851425171,
      "rewards/rejected": -0.8993724584579468,
      "step": 160
    },
    {
      "epoch": 0.83,
      "learning_rate": 4.1390469071538183e-07,
      "logits/chosen": -0.18803004920482635,
      "logits/rejected": 0.2920515239238739,
      "logps/chosen": -354.27850341796875,
      "logps/rejected": -395.4891662597656,
      "loss": 0.572,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.4289117753505707,
      "rewards/margins": 0.6338173151016235,
      "rewards/rejected": -1.0627291202545166,
      "step": 170
    },
    {
      "epoch": 0.88,
      "learning_rate": 2.092077387824884e-07,
      "logits/chosen": -0.3639245629310608,
      "logits/rejected": 0.10981345176696777,
      "logps/chosen": -360.1329040527344,
      "logps/rejected": -398.4459228515625,
      "loss": 0.5849,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.47209954261779785,
      "rewards/margins": 0.41623225808143616,
      "rewards/rejected": -0.8883317708969116,
      "step": 180
    },
    {
      "epoch": 0.93,
      "learning_rate": 7.185750133542168e-08,
      "logits/chosen": -0.22452381253242493,
      "logits/rejected": 0.09472702443599701,
      "logps/chosen": -326.5190734863281,
      "logps/rejected": -378.1178283691406,
      "loss": 0.5709,
      "rewards/accuracies": 0.690625011920929,
      "rewards/chosen": -0.4104897081851959,
      "rewards/margins": 0.5403845906257629,
      "rewards/rejected": -0.9508742094039917,
      "step": 190
    },
    {
      "epoch": 0.98,
      "learning_rate": 5.891920784984184e-09,
      "logits/chosen": -0.3469659686088562,
      "logits/rejected": 0.25132912397384644,
      "logps/chosen": -343.2359619140625,
      "logps/rejected": -382.6238708496094,
      "loss": 0.5515,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": -0.4093819558620453,
      "rewards/margins": 0.5723959803581238,
      "rewards/rejected": -0.9817778468132019,
      "step": 200
    },
    {
      "epoch": 0.98,
      "eval_logits/chosen": -0.2965223491191864,
      "eval_logits/rejected": 0.3453357517719269,
      "eval_logps/chosen": -353.7200927734375,
      "eval_logps/rejected": -386.9141540527344,
      "eval_loss": 0.550627589225769,
      "eval_rewards/accuracies": 0.7059999704360962,
      "eval_rewards/chosen": -0.4422835409641266,
      "eval_rewards/margins": 0.5272080302238464,
      "eval_rewards/rejected": -0.9694914817810059,
      "eval_runtime": 384.4037,
      "eval_samples_per_second": 5.203,
      "eval_steps_per_second": 0.65,
      "step": 200
    },
    {
      "epoch": 1.0,
      "step": 204,
      "total_flos": 0.0,
      "train_loss": 0.5898386608151829,
      "train_runtime": 9586.2939,
      "train_samples_per_second": 2.726,
      "train_steps_per_second": 0.021
    }
  ],
  "logging_steps": 10,
  "max_steps": 204,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}