{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9982631930527722,
  "eval_steps": 100,
  "global_step": 467,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0021376085504342017,
      "grad_norm": 4.503899550790205,
      "learning_rate": 2.127659574468085e-08,
      "logits/chosen": -0.8003637194633484,
      "logits/rejected": -0.8448871970176697,
      "logps/chosen": -212.04685974121094,
      "logps/rejected": -206.4463348388672,
      "loss": 0.6931,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1
    },
    {
      "epoch": 0.0042752171008684035,
      "grad_norm": 4.89256031461174,
      "learning_rate": 4.25531914893617e-08,
      "logits/chosen": -0.750135064125061,
      "logits/rejected": -0.7247368097305298,
      "logps/chosen": -271.5355529785156,
      "logps/rejected": -260.5343322753906,
      "loss": 0.6931,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 2
    },
    {
      "epoch": 0.006412825651302605,
      "grad_norm": 4.511049028695194,
      "learning_rate": 6.382978723404254e-08,
      "logits/chosen": -0.9132480621337891,
      "logits/rejected": -0.9213609099388123,
      "logps/chosen": -259.10791015625,
      "logps/rejected": -262.6512756347656,
      "loss": 0.6935,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.0005805277032777667,
      "rewards/margins": -0.001751818461343646,
      "rewards/rejected": 0.0011712908744812012,
      "step": 3
    },
    {
      "epoch": 0.008550434201736807,
      "grad_norm": 5.0258481504448485,
      "learning_rate": 8.51063829787234e-08,
      "logits/chosen": -0.8424134850502014,
      "logits/rejected": -0.8080853223800659,
      "logps/chosen": -251.00387573242188,
      "logps/rejected": -255.1189422607422,
      "loss": 0.6929,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": 0.0018655203748494387,
      "rewards/margins": 0.0010831927647814155,
      "rewards/rejected": 0.0007823276100680232,
      "step": 4
    },
    {
      "epoch": 0.01068804275217101,
      "grad_norm": 4.75851133644133,
      "learning_rate": 1.0638297872340425e-07,
      "logits/chosen": -0.9411681294441223,
      "logits/rejected": -0.9376619458198547,
      "logps/chosen": -289.8980407714844,
      "logps/rejected": -274.7005615234375,
      "loss": 0.6929,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.0026531934272497892,
      "rewards/margins": 0.0023759508039802313,
      "rewards/rejected": 0.00027724262326955795,
      "step": 5
    },
    {
      "epoch": 0.01282565130260521,
      "grad_norm": 4.443327602655402,
      "learning_rate": 1.2765957446808508e-07,
      "logits/chosen": -0.7161233425140381,
      "logits/rejected": -0.6978777647018433,
      "logps/chosen": -223.0089569091797,
      "logps/rejected": -222.1771240234375,
      "loss": 0.6934,
      "rewards/accuracies": 0.34375,
      "rewards/chosen": -0.0012396120000630617,
      "rewards/margins": -0.0016972327139228582,
      "rewards/rejected": 0.00045762062654830515,
      "step": 6
    },
    {
      "epoch": 0.014963259853039413,
      "grad_norm": 5.506063836746189,
      "learning_rate": 1.4893617021276595e-07,
      "logits/chosen": -0.9607124924659729,
      "logits/rejected": -0.9491544961929321,
      "logps/chosen": -310.2432556152344,
      "logps/rejected": -305.9755554199219,
      "loss": 0.6926,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": 0.0012061572633683681,
      "rewards/margins": -0.0002907347516156733,
      "rewards/rejected": 0.0014968919567763805,
      "step": 7
    },
    {
      "epoch": 0.017100868403473614,
      "grad_norm": 4.851635423100062,
      "learning_rate": 1.702127659574468e-07,
      "logits/chosen": -0.8928542137145996,
      "logits/rejected": -0.8853560090065002,
      "logps/chosen": -247.1142120361328,
      "logps/rejected": -244.08663940429688,
      "loss": 0.693,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": 0.0002220773312728852,
      "rewards/margins": 0.0013035106239840388,
      "rewards/rejected": -0.0010814334964379668,
      "step": 8
    },
    {
      "epoch": 0.019238476953907815,
      "grad_norm": 4.87939101936585,
      "learning_rate": 1.9148936170212765e-07,
      "logits/chosen": -0.8140461444854736,
      "logits/rejected": -0.8076512813568115,
      "logps/chosen": -272.2711486816406,
      "logps/rejected": -284.1283264160156,
      "loss": 0.6935,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.0010817217407748103,
      "rewards/margins": -0.001508195186033845,
      "rewards/rejected": 0.0004264736198820174,
      "step": 9
    },
    {
      "epoch": 0.02137608550434202,
      "grad_norm": 4.562355516566984,
      "learning_rate": 2.127659574468085e-07,
      "logits/chosen": -0.8849949836730957,
      "logits/rejected": -0.8811756372451782,
      "logps/chosen": -229.57052612304688,
      "logps/rejected": -231.6889190673828,
      "loss": 0.6931,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.00039355267654173076,
      "rewards/margins": 0.0002220940077677369,
      "rewards/rejected": 0.0001714585960144177,
      "step": 10
    },
    {
      "epoch": 0.02351369405477622,
      "grad_norm": 4.67288441235731,
      "learning_rate": 2.3404255319148937e-07,
      "logits/chosen": -0.8189717531204224,
      "logits/rejected": -0.8200615644454956,
      "logps/chosen": -273.552734375,
      "logps/rejected": -277.36859130859375,
      "loss": 0.6934,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -0.0009033679380081594,
      "rewards/margins": -0.0013172316830605268,
      "rewards/rejected": 0.0004138636286370456,
      "step": 11
    },
    {
      "epoch": 0.02565130260521042,
      "grad_norm": 4.805681101367893,
      "learning_rate": 2.5531914893617016e-07,
      "logits/chosen": -0.9043698906898499,
      "logits/rejected": -0.8993241190910339,
      "logps/chosen": -273.664306640625,
      "logps/rejected": -268.0246887207031,
      "loss": 0.6929,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": 0.0001288223429583013,
      "rewards/margins": -3.8141035474836826e-05,
      "rewards/rejected": 0.00016696332022547722,
      "step": 12
    },
    {
      "epoch": 0.02778891115564462,
      "grad_norm": 4.91733558840618,
      "learning_rate": 2.7659574468085106e-07,
      "logits/chosen": -0.8745774626731873,
      "logits/rejected": -0.8446710705757141,
      "logps/chosen": -243.00827026367188,
      "logps/rejected": -229.5283203125,
      "loss": 0.693,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.002203774405643344,
      "rewards/margins": -0.00030036212410777807,
      "rewards/rejected": -0.0019034123979508877,
      "step": 13
    },
    {
      "epoch": 0.029926519706078826,
      "grad_norm": 5.299324976103458,
      "learning_rate": 2.978723404255319e-07,
      "logits/chosen": -0.7348307967185974,
      "logits/rejected": -0.7354189157485962,
      "logps/chosen": -186.85391235351562,
      "logps/rejected": -199.67623901367188,
      "loss": 0.6932,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.0016946769319474697,
      "rewards/margins": -0.0006936597637832165,
      "rewards/rejected": -0.001001017284579575,
      "step": 14
    },
    {
      "epoch": 0.03206412825651302,
      "grad_norm": 4.755602904170831,
      "learning_rate": 3.1914893617021275e-07,
      "logits/chosen": -0.7406636476516724,
      "logits/rejected": -0.7166301608085632,
      "logps/chosen": -199.6678466796875,
      "logps/rejected": -194.37559509277344,
      "loss": 0.6928,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": 0.0003121185291092843,
      "rewards/margins": 0.0012607788667082787,
      "rewards/rejected": -0.0009486603084951639,
      "step": 15
    },
    {
      "epoch": 0.03420173680694723,
      "grad_norm": 4.853620806434979,
      "learning_rate": 3.404255319148936e-07,
      "logits/chosen": -0.78841632604599,
      "logits/rejected": -0.7843498587608337,
      "logps/chosen": -266.4180908203125,
      "logps/rejected": -271.6226806640625,
      "loss": 0.693,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.0009592341957613826,
      "rewards/margins": 0.0019549226853996515,
      "rewards/rejected": -0.002914156997576356,
      "step": 16
    },
    {
      "epoch": 0.03633934535738143,
      "grad_norm": 5.423827110862174,
      "learning_rate": 3.617021276595745e-07,
      "logits/chosen": -0.9736945629119873,
      "logits/rejected": -0.9769234657287598,
      "logps/chosen": -258.8900146484375,
      "logps/rejected": -264.2679748535156,
      "loss": 0.6935,
      "rewards/accuracies": 0.25,
      "rewards/chosen": -0.0061743613332509995,
      "rewards/margins": -0.001890932791866362,
      "rewards/rejected": -0.0042834291234612465,
      "step": 17
    },
    {
      "epoch": 0.03847695390781563,
      "grad_norm": 4.824497254280432,
      "learning_rate": 3.829787234042553e-07,
      "logits/chosen": -0.851763904094696,
      "logits/rejected": -0.8533320426940918,
      "logps/chosen": -273.1241760253906,
      "logps/rejected": -269.42315673828125,
      "loss": 0.6927,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.0023198507260531187,
      "rewards/margins": -0.0010572766186669469,
      "rewards/rejected": -0.0012625741073861718,
      "step": 18
    },
    {
      "epoch": 0.040614562458249834,
      "grad_norm": 4.885682499438778,
      "learning_rate": 4.0425531914893614e-07,
      "logits/chosen": -0.9122135043144226,
      "logits/rejected": -0.9140520095825195,
      "logps/chosen": -336.9332580566406,
      "logps/rejected": -327.79571533203125,
      "loss": 0.6932,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.007231764495372772,
      "rewards/margins": -0.00179797422606498,
      "rewards/rejected": -0.005433791317045689,
      "step": 19
    },
    {
      "epoch": 0.04275217100868404,
      "grad_norm": 4.403742601709981,
      "learning_rate": 4.25531914893617e-07,
      "logits/chosen": -0.8458749055862427,
      "logits/rejected": -0.8761993646621704,
      "logps/chosen": -258.8704833984375,
      "logps/rejected": -263.5494079589844,
      "loss": 0.6928,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.005775632336735725,
      "rewards/margins": 0.00025997147895395756,
      "rewards/rejected": -0.006035604514181614,
      "step": 20
    },
    {
      "epoch": 0.044889779559118236,
      "grad_norm": 5.1980600006783195,
      "learning_rate": 4.4680851063829783e-07,
      "logits/chosen": -0.7707018852233887,
      "logits/rejected": -0.7247700691223145,
      "logps/chosen": -233.66183471679688,
      "logps/rejected": -255.91018676757812,
      "loss": 0.6924,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -0.006643190514296293,
      "rewards/margins": 0.0013489744160324335,
      "rewards/rejected": -0.00799216516315937,
      "step": 21
    },
    {
      "epoch": 0.04702738810955244,
      "grad_norm": 4.514553831312047,
      "learning_rate": 4.6808510638297873e-07,
      "logits/chosen": -0.8653970956802368,
      "logits/rejected": -0.8456276059150696,
      "logps/chosen": -245.4098663330078,
      "logps/rejected": -248.41461181640625,
      "loss": 0.6928,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -0.005286152008920908,
      "rewards/margins": 0.000985494116321206,
      "rewards/rejected": -0.006271645426750183,
      "step": 22
    },
    {
      "epoch": 0.04916499665998664,
      "grad_norm": 4.80080663754473,
      "learning_rate": 4.893617021276595e-07,
      "logits/chosen": -0.8655314445495605,
      "logits/rejected": -0.8451917171478271,
      "logps/chosen": -252.33546447753906,
      "logps/rejected": -260.81475830078125,
      "loss": 0.6921,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.006377603858709335,
      "rewards/margins": 0.00297079561278224,
      "rewards/rejected": -0.009348399937152863,
      "step": 23
    },
    {
      "epoch": 0.05130260521042084,
      "grad_norm": 5.481285264708149,
      "learning_rate": 5.106382978723403e-07,
      "logits/chosen": -0.7310451865196228,
      "logits/rejected": -0.7366085648536682,
      "logps/chosen": -238.02166748046875,
      "logps/rejected": -245.17308044433594,
      "loss": 0.6918,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.010805780068039894,
      "rewards/margins": 0.0019894172437489033,
      "rewards/rejected": -0.01279519684612751,
      "step": 24
    },
    {
      "epoch": 0.053440213760855046,
      "grad_norm": 4.561792775392447,
      "learning_rate": 5.319148936170212e-07,
      "logits/chosen": -0.9254141449928284,
      "logits/rejected": -0.939468502998352,
      "logps/chosen": -269.6241455078125,
      "logps/rejected": -282.4432067871094,
      "loss": 0.6931,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.01286405324935913,
      "rewards/margins": 0.001102518755942583,
      "rewards/rejected": -0.013966571539640427,
      "step": 25
    },
    {
      "epoch": 0.05557782231128924,
      "grad_norm": 4.85781011184185,
      "learning_rate": 5.531914893617021e-07,
      "logits/chosen": -0.8391819000244141,
      "logits/rejected": -0.8546662330627441,
      "logps/chosen": -271.26068115234375,
      "logps/rejected": -267.31024169921875,
      "loss": 0.6925,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.008641035296022892,
      "rewards/margins": 0.0034573455341160297,
      "rewards/rejected": -0.012098381295800209,
      "step": 26
    },
    {
      "epoch": 0.05771543086172345,
      "grad_norm": 5.072033355975492,
      "learning_rate": 5.74468085106383e-07,
      "logits/chosen": -0.8844251036643982,
      "logits/rejected": -0.8849300742149353,
      "logps/chosen": -243.93980407714844,
      "logps/rejected": -248.54537963867188,
      "loss": 0.6927,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.015005933120846748,
      "rewards/margins": 0.0034025944769382477,
      "rewards/rejected": -0.018408527597784996,
      "step": 27
    },
    {
      "epoch": 0.05985303941215765,
      "grad_norm": 4.905934366826652,
      "learning_rate": 5.957446808510638e-07,
      "logits/chosen": -0.724337637424469,
      "logits/rejected": -0.7232470512390137,
      "logps/chosen": -262.2066345214844,
      "logps/rejected": -267.26116943359375,
      "loss": 0.6919,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.014386076480150223,
      "rewards/margins": -0.0017046784050762653,
      "rewards/rejected": -0.012681398540735245,
      "step": 28
    },
    {
      "epoch": 0.06199064796259185,
      "grad_norm": 4.7342802483142705,
      "learning_rate": 6.170212765957446e-07,
      "logits/chosen": -0.8244236707687378,
      "logits/rejected": -0.8045285940170288,
      "logps/chosen": -218.7688751220703,
      "logps/rejected": -219.35711669921875,
      "loss": 0.6898,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.014018207788467407,
      "rewards/margins": 0.00474612507969141,
      "rewards/rejected": -0.018764331936836243,
      "step": 29
    },
    {
      "epoch": 0.06412825651302605,
      "grad_norm": 5.185028135772882,
      "learning_rate": 6.382978723404255e-07,
      "logits/chosen": -0.7685129642486572,
      "logits/rejected": -0.7588883638381958,
      "logps/chosen": -265.58447265625,
      "logps/rejected": -271.6627502441406,
      "loss": 0.6911,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.023013589903712273,
      "rewards/margins": -6.0059886891394854e-05,
      "rewards/rejected": -0.02295352704823017,
      "step": 30
    },
    {
      "epoch": 0.06626586506346026,
      "grad_norm": 5.174402492219036,
      "learning_rate": 6.595744680851063e-07,
      "logits/chosen": -0.8060805797576904,
      "logits/rejected": -0.8104574084281921,
      "logps/chosen": -253.12918090820312,
      "logps/rejected": -262.47772216796875,
      "loss": 0.6926,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.027180161327123642,
      "rewards/margins": 0.0009983510244637728,
      "rewards/rejected": -0.028178514912724495,
      "step": 31
    },
    {
      "epoch": 0.06840347361389446,
      "grad_norm": 4.839677584710031,
      "learning_rate": 6.808510638297872e-07,
      "logits/chosen": -0.8107847571372986,
      "logits/rejected": -0.8056558966636658,
      "logps/chosen": -247.47384643554688,
      "logps/rejected": -259.930419921875,
      "loss": 0.6922,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -0.03201708570122719,
      "rewards/margins": 0.0023030471056699753,
      "rewards/rejected": -0.03432013466954231,
      "step": 32
    },
    {
      "epoch": 0.07054108216432865,
      "grad_norm": 4.418696566904475,
      "learning_rate": 7.021276595744681e-07,
      "logits/chosen": -0.8691257834434509,
      "logits/rejected": -0.891472339630127,
      "logps/chosen": -229.89974975585938,
      "logps/rejected": -220.62893676757812,
      "loss": 0.6925,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -0.023654459044337273,
      "rewards/margins": 0.0017885996494442225,
      "rewards/rejected": -0.025443056598305702,
      "step": 33
    },
    {
      "epoch": 0.07267869071476286,
      "grad_norm": 5.281949481266581,
      "learning_rate": 7.23404255319149e-07,
      "logits/chosen": -0.7926970720291138,
      "logits/rejected": -0.7971447706222534,
      "logps/chosen": -201.50173950195312,
      "logps/rejected": -209.24432373046875,
      "loss": 0.6883,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.0300833098590374,
      "rewards/margins": 0.011433225125074387,
      "rewards/rejected": -0.041516534984111786,
      "step": 34
    },
    {
      "epoch": 0.07481629926519706,
      "grad_norm": 5.310361096502114,
      "learning_rate": 7.446808510638297e-07,
      "logits/chosen": -0.910358726978302,
      "logits/rejected": -0.8681845664978027,
      "logps/chosen": -293.49481201171875,
      "logps/rejected": -264.9764709472656,
      "loss": 0.6929,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.042106445878744125,
      "rewards/margins": -0.00045869359746575356,
      "rewards/rejected": -0.04164774715900421,
      "step": 35
    },
    {
      "epoch": 0.07695390781563126,
      "grad_norm": 4.880148293966411,
      "learning_rate": 7.659574468085106e-07,
      "logits/chosen": -0.9195268154144287,
      "logits/rejected": -0.9358838796615601,
      "logps/chosen": -219.29908752441406,
      "logps/rejected": -223.91160583496094,
      "loss": 0.6905,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.03970751538872719,
      "rewards/margins": 0.009188718162477016,
      "rewards/rejected": -0.04889623448252678,
      "step": 36
    },
    {
      "epoch": 0.07909151636606547,
      "grad_norm": 4.918837324305735,
      "learning_rate": 7.872340425531915e-07,
      "logits/chosen": -0.7983888387680054,
      "logits/rejected": -0.7829576134681702,
      "logps/chosen": -236.22479248046875,
      "logps/rejected": -230.52279663085938,
      "loss": 0.6924,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.03082606941461563,
      "rewards/margins": 0.007684895768761635,
      "rewards/rejected": -0.038510967046022415,
      "step": 37
    },
    {
      "epoch": 0.08122912491649967,
      "grad_norm": 4.697759235789417,
      "learning_rate": 8.085106382978723e-07,
      "logits/chosen": -0.9536780118942261,
      "logits/rejected": -0.9445628523826599,
      "logps/chosen": -239.7415771484375,
      "logps/rejected": -250.46978759765625,
      "loss": 0.6915,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.04406914860010147,
      "rewards/margins": 0.007817601785063744,
      "rewards/rejected": -0.05188675597310066,
      "step": 38
    },
    {
      "epoch": 0.08336673346693386,
      "grad_norm": 4.942849749477713,
      "learning_rate": 8.297872340425532e-07,
      "logits/chosen": -0.8406745195388794,
      "logits/rejected": -0.8202511668205261,
      "logps/chosen": -283.8332824707031,
      "logps/rejected": -289.7784729003906,
      "loss": 0.6883,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.0502498485147953,
      "rewards/margins": 0.014361884444952011,
      "rewards/rejected": -0.06461173295974731,
      "step": 39
    },
    {
      "epoch": 0.08550434201736808,
      "grad_norm": 5.117709083830907,
      "learning_rate": 8.51063829787234e-07,
      "logits/chosen": -0.8214735984802246,
      "logits/rejected": -0.811273992061615,
      "logps/chosen": -210.29600524902344,
      "logps/rejected": -199.48020935058594,
      "loss": 0.6884,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.04497796297073364,
      "rewards/margins": 0.01133386418223381,
      "rewards/rejected": -0.05631183087825775,
      "step": 40
    },
    {
      "epoch": 0.08764195056780227,
      "grad_norm": 5.136196664411302,
      "learning_rate": 8.723404255319149e-07,
      "logits/chosen": -0.969085693359375,
      "logits/rejected": -0.9578003287315369,
      "logps/chosen": -252.95278930664062,
      "logps/rejected": -256.9606018066406,
      "loss": 0.6848,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.07370009273290634,
      "rewards/margins": 0.004004061222076416,
      "rewards/rejected": -0.07770414650440216,
      "step": 41
    },
    {
      "epoch": 0.08977955911823647,
      "grad_norm": 4.838693140519435,
      "learning_rate": 8.936170212765957e-07,
      "logits/chosen": -0.8661520481109619,
      "logits/rejected": -0.8457835912704468,
      "logps/chosen": -304.5137634277344,
      "logps/rejected": -289.595947265625,
      "loss": 0.6883,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.07082202285528183,
      "rewards/margins": 0.015582293272018433,
      "rewards/rejected": -0.08640430867671967,
      "step": 42
    },
    {
      "epoch": 0.09191716766867067,
      "grad_norm": 4.957200914658608,
      "learning_rate": 9.148936170212766e-07,
      "logits/chosen": -0.8786011338233948,
      "logits/rejected": -0.8692121505737305,
      "logps/chosen": -241.05532836914062,
      "logps/rejected": -243.45684814453125,
      "loss": 0.6919,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.07279819995164871,
      "rewards/margins": 0.020279541611671448,
      "rewards/rejected": -0.09307773411273956,
      "step": 43
    },
    {
      "epoch": 0.09405477621910488,
      "grad_norm": 5.332532100522966,
      "learning_rate": 9.361702127659575e-07,
      "logits/chosen": -0.714208722114563,
      "logits/rejected": -0.7126749157905579,
      "logps/chosen": -319.6092834472656,
      "logps/rejected": -301.8595886230469,
      "loss": 0.6873,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.07854731380939484,
      "rewards/margins": 0.005709480959922075,
      "rewards/rejected": -0.08425679802894592,
      "step": 44
    },
    {
      "epoch": 0.09619238476953908,
      "grad_norm": 5.165598994277126,
      "learning_rate": 9.574468085106384e-07,
      "logits/chosen": -0.8318406343460083,
      "logits/rejected": -0.849963903427124,
      "logps/chosen": -255.63446044921875,
      "logps/rejected": -259.7432556152344,
      "loss": 0.6883,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.09484049677848816,
      "rewards/margins": 0.010637722909450531,
      "rewards/rejected": -0.10547823458909988,
      "step": 45
    },
    {
      "epoch": 0.09832999331997327,
      "grad_norm": 4.871720241221463,
      "learning_rate": 9.78723404255319e-07,
      "logits/chosen": -0.8702428936958313,
      "logits/rejected": -0.8339990377426147,
      "logps/chosen": -316.18670654296875,
      "logps/rejected": -329.9319152832031,
      "loss": 0.6892,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.14160332083702087,
      "rewards/margins": 0.013123790733516216,
      "rewards/rejected": -0.15472710132598877,
      "step": 46
    },
    {
      "epoch": 0.10046760187040749,
      "grad_norm": 5.158837089218199,
      "learning_rate": 1e-06,
      "logits/chosen": -0.8626521229743958,
      "logits/rejected": -0.8603638410568237,
      "logps/chosen": -247.8237762451172,
      "logps/rejected": -249.759033203125,
      "loss": 0.6913,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.09033364802598953,
      "rewards/margins": 0.0012807990424335003,
      "rewards/rejected": -0.09161444753408432,
      "step": 47
    },
    {
      "epoch": 0.10260521042084168,
      "grad_norm": 5.2967028714823785,
      "learning_rate": 9.999860125306348e-07,
      "logits/chosen": -0.8659788370132446,
      "logits/rejected": -0.8618423342704773,
      "logps/chosen": -272.1561279296875,
      "logps/rejected": -280.98040771484375,
      "loss": 0.6893,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.11396947503089905,
      "rewards/margins": -0.0073202308267354965,
      "rewards/rejected": -0.106649249792099,
      "step": 48
    },
    {
      "epoch": 0.10474281897127588,
      "grad_norm": 5.51515197326478,
      "learning_rate": 9.999440509051367e-07,
      "logits/chosen": -0.7946774363517761,
      "logits/rejected": -0.8100728988647461,
      "logps/chosen": -302.84283447265625,
      "logps/rejected": -298.60955810546875,
      "loss": 0.6849,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.1010870561003685,
      "rewards/margins": 0.017633313313126564,
      "rewards/rejected": -0.11872036755084991,
      "step": 49
    },
    {
      "epoch": 0.10688042752171009,
      "grad_norm": 5.870386943751237,
      "learning_rate": 9.998741174712533e-07,
      "logits/chosen": -0.90606290102005,
      "logits/rejected": -0.9065860509872437,
      "logps/chosen": -257.7372741699219,
      "logps/rejected": -241.87298583984375,
      "loss": 0.6821,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.12090699374675751,
      "rewards/margins": 0.024912692606449127,
      "rewards/rejected": -0.14581969380378723,
      "step": 50
    },
    {
      "epoch": 0.10901803607214429,
      "grad_norm": 5.544085731964276,
      "learning_rate": 9.997762161417517e-07,
      "logits/chosen": -0.8597516417503357,
      "logits/rejected": -0.8242354393005371,
      "logps/chosen": -244.0271759033203,
      "logps/rejected": -262.000732421875,
      "loss": 0.6771,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.11861881613731384,
      "rewards/margins": 0.04306299239397049,
      "rewards/rejected": -0.16168181598186493,
      "step": 51
    },
    {
      "epoch": 0.11115564462257849,
      "grad_norm": 5.08779280072292,
      "learning_rate": 9.996503523941992e-07,
      "logits/chosen": -0.8984640836715698,
      "logits/rejected": -0.8927853107452393,
      "logps/chosen": -292.3353576660156,
      "logps/rejected": -283.715576171875,
      "loss": 0.6878,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.1378980576992035,
      "rewards/margins": -0.0063457973301410675,
      "rewards/rejected": -0.13155226409435272,
      "step": 52
    },
    {
      "epoch": 0.1132932531730127,
      "grad_norm": 5.528861132333211,
      "learning_rate": 9.994965332706572e-07,
      "logits/chosen": -0.7924266457557678,
      "logits/rejected": -0.7879197597503662,
      "logps/chosen": -299.14617919921875,
      "logps/rejected": -305.268798828125,
      "loss": 0.6822,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.14223326742649078,
      "rewards/margins": 0.029797088354825974,
      "rewards/rejected": -0.17203034460544586,
      "step": 53
    },
    {
      "epoch": 0.1154308617234469,
      "grad_norm": 5.45602380596692,
      "learning_rate": 9.99314767377287e-07,
      "logits/chosen": -0.9068719744682312,
      "logits/rejected": -0.8776203393936157,
      "logps/chosen": -288.920166015625,
      "logps/rejected": -288.0073547363281,
      "loss": 0.6782,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.12053351104259491,
      "rewards/margins": 0.04062645137310028,
      "rewards/rejected": -0.161159947514534,
      "step": 54
    },
    {
      "epoch": 0.11756847027388109,
      "grad_norm": 5.381814409133637,
      "learning_rate": 9.991050648838675e-07,
      "logits/chosen": -0.8684936165809631,
      "logits/rejected": -0.8693514466285706,
      "logps/chosen": -300.5417175292969,
      "logps/rejected": -297.93609619140625,
      "loss": 0.6852,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.08863644301891327,
      "rewards/margins": 0.03236062452197075,
      "rewards/rejected": -0.12099706381559372,
      "step": 55
    },
    {
      "epoch": 0.1197060788243153,
      "grad_norm": 4.981246770478922,
      "learning_rate": 9.98867437523228e-07,
      "logits/chosen": -0.7902661561965942,
      "logits/rejected": -0.7963244915008545,
      "logps/chosen": -302.9090576171875,
      "logps/rejected": -296.0736389160156,
      "loss": 0.6823,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.10501404106616974,
      "rewards/margins": 0.045005738735198975,
      "rewards/rejected": -0.15001976490020752,
      "step": 56
    },
    {
      "epoch": 0.1218436873747495,
      "grad_norm": 5.95244558017509,
      "learning_rate": 9.986018985905899e-07,
      "logits/chosen": -0.933331310749054,
      "logits/rejected": -0.9271438121795654,
      "logps/chosen": -257.21197509765625,
      "logps/rejected": -258.4394226074219,
      "loss": 0.6847,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.1376655399799347,
      "rewards/margins": 0.020258434116840363,
      "rewards/rejected": -0.15792396664619446,
      "step": 57
    },
    {
      "epoch": 0.1239812959251837,
      "grad_norm": 5.625394184294828,
      "learning_rate": 9.983084629428244e-07,
      "logits/chosen": -0.790676474571228,
      "logits/rejected": -0.7989400625228882,
      "logps/chosen": -216.31825256347656,
      "logps/rejected": -239.0472869873047,
      "loss": 0.6822,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.12253975123167038,
      "rewards/margins": 0.032085709273815155,
      "rewards/rejected": -0.15462547540664673,
      "step": 58
    },
    {
      "epoch": 0.1261189044756179,
      "grad_norm": 5.3018065912112835,
      "learning_rate": 9.979871469976195e-07,
      "logits/chosen": -0.7393543720245361,
      "logits/rejected": -0.7129000425338745,
      "logps/chosen": -311.56878662109375,
      "logps/rejected": -291.1382751464844,
      "loss": 0.6848,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.24215912818908691,
      "rewards/margins": -0.015711378306150436,
      "rewards/rejected": -0.22644776105880737,
      "step": 59
    },
    {
      "epoch": 0.1282565130260521,
      "grad_norm": 5.89246728884038,
      "learning_rate": 9.97637968732563e-07,
      "logits/chosen": -0.8696700930595398,
      "logits/rejected": -0.8711199760437012,
      "logps/chosen": -246.91502380371094,
      "logps/rejected": -262.1573791503906,
      "loss": 0.6851,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.1573953628540039,
      "rewards/margins": 0.03878934681415558,
      "rewards/rejected": -0.1961846947669983,
      "step": 60
    },
    {
      "epoch": 0.1303941215764863,
      "grad_norm": 5.3302706046399555,
      "learning_rate": 9.972609476841365e-07,
      "logits/chosen": -0.915327787399292,
      "logits/rejected": -0.8959137201309204,
      "logps/chosen": -273.5627136230469,
      "logps/rejected": -297.04962158203125,
      "loss": 0.6851,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.21575269103050232,
      "rewards/margins": 0.07058089226484299,
      "rewards/rejected": -0.2863335907459259,
      "step": 61
    },
    {
      "epoch": 0.13253173012692052,
      "grad_norm": 5.298125253303342,
      "learning_rate": 9.968561049466213e-07,
      "logits/chosen": -0.8035833239555359,
      "logits/rejected": -0.8177482485771179,
      "logps/chosen": -258.7190246582031,
      "logps/rejected": -260.00408935546875,
      "loss": 0.6761,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.1654270738363266,
      "rewards/margins": 0.03356565535068512,
      "rewards/rejected": -0.19899272918701172,
      "step": 62
    },
    {
      "epoch": 0.1346693386773547,
      "grad_norm": 5.644014199691322,
      "learning_rate": 9.964234631709185e-07,
      "logits/chosen": -0.8946092128753662,
      "logits/rejected": -0.8983243703842163,
      "logps/chosen": -272.2535095214844,
      "logps/rejected": -278.0460205078125,
      "loss": 0.6812,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.18145883083343506,
      "rewards/margins": 0.05900725722312927,
      "rewards/rejected": -0.24046610295772552,
      "step": 63
    },
    {
      "epoch": 0.1368069472277889,
      "grad_norm": 6.088482546530936,
      "learning_rate": 9.959630465632831e-07,
      "logits/chosen": -0.8606098890304565,
      "logits/rejected": -0.8623652458190918,
      "logps/chosen": -256.6067199707031,
      "logps/rejected": -273.53668212890625,
      "loss": 0.6753,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.17427769303321838,
      "rewards/margins": 0.05003924295306206,
      "rewards/rejected": -0.22431692481040955,
      "step": 64
    },
    {
      "epoch": 0.13894455577822312,
      "grad_norm": 5.611060962151761,
      "learning_rate": 9.954748808839674e-07,
      "logits/chosen": -0.8806792497634888,
      "logits/rejected": -0.8958165645599365,
      "logps/chosen": -275.52301025390625,
      "logps/rejected": -273.21563720703125,
      "loss": 0.6823,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.2500859200954437,
      "rewards/margins": 0.017448339611291885,
      "rewards/rejected": -0.2675342261791229,
      "step": 65
    },
    {
      "epoch": 0.1410821643286573,
      "grad_norm": 5.918149017741809,
      "learning_rate": 9.949589934457814e-07,
      "logits/chosen": -0.8888027667999268,
      "logits/rejected": -0.871585488319397,
      "logps/chosen": -248.55703735351562,
      "logps/rejected": -258.9693603515625,
      "loss": 0.6824,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.1963491439819336,
      "rewards/margins": 0.04409556835889816,
      "rewards/rejected": -0.24044471979141235,
      "step": 66
    },
    {
      "epoch": 0.14321977287909152,
      "grad_norm": 6.698179177771139,
      "learning_rate": 9.944154131125642e-07,
      "logits/chosen": -0.853302001953125,
      "logits/rejected": -0.848848819732666,
      "logps/chosen": -277.59442138671875,
      "logps/rejected": -297.14141845703125,
      "loss": 0.6639,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.24216346442699432,
      "rewards/margins": 0.10889790952205658,
      "rewards/rejected": -0.3510614037513733,
      "step": 67
    },
    {
      "epoch": 0.14535738142952573,
      "grad_norm": 5.596769283806181,
      "learning_rate": 9.938441702975689e-07,
      "logits/chosen": -0.7764022350311279,
      "logits/rejected": -0.7560886144638062,
      "logps/chosen": -250.94287109375,
      "logps/rejected": -250.5952606201172,
      "loss": 0.6732,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.2156543880701065,
      "rewards/margins": 0.03958458825945854,
      "rewards/rejected": -0.25523898005485535,
      "step": 68
    },
    {
      "epoch": 0.1474949899799599,
      "grad_norm": 5.913968144404886,
      "learning_rate": 9.932452969617607e-07,
      "logits/chosen": -0.7237470746040344,
      "logits/rejected": -0.7399138808250427,
      "logps/chosen": -244.21449279785156,
      "logps/rejected": -254.1151123046875,
      "loss": 0.6695,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.1943284124135971,
      "rewards/margins": 0.060313306748867035,
      "rewards/rejected": -0.25464171171188354,
      "step": 69
    },
    {
      "epoch": 0.14963259853039412,
      "grad_norm": 5.940310444508497,
      "learning_rate": 9.926188266120295e-07,
      "logits/chosen": -0.8615679144859314,
      "logits/rejected": -0.8436312675476074,
      "logps/chosen": -256.257080078125,
      "logps/rejected": -262.7105712890625,
      "loss": 0.679,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.17094658315181732,
      "rewards/margins": 0.055061645805835724,
      "rewards/rejected": -0.22600823640823364,
      "step": 70
    },
    {
      "epoch": 0.15177020708082833,
      "grad_norm": 5.928886998788439,
      "learning_rate": 9.919647942993147e-07,
      "logits/chosen": -0.8513661623001099,
      "logits/rejected": -0.8609136343002319,
      "logps/chosen": -299.2288818359375,
      "logps/rejected": -326.5621032714844,
      "loss": 0.6711,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.22696439921855927,
      "rewards/margins": 0.04341430217027664,
      "rewards/rejected": -0.2703787088394165,
      "step": 71
    },
    {
      "epoch": 0.15390781563126252,
      "grad_norm": 5.791936546761731,
      "learning_rate": 9.912832366166441e-07,
      "logits/chosen": -0.756388783454895,
      "logits/rejected": -0.734666109085083,
      "logps/chosen": -299.2653503417969,
      "logps/rejected": -307.1020202636719,
      "loss": 0.6727,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.3383556604385376,
      "rewards/margins": 0.01706152781844139,
      "rewards/rejected": -0.3554171919822693,
      "step": 72
    },
    {
      "epoch": 0.15604542418169673,
      "grad_norm": 6.05455714563325,
      "learning_rate": 9.905741916970863e-07,
      "logits/chosen": -0.9010551571846008,
      "logits/rejected": -0.8836992383003235,
      "logps/chosen": -339.32806396484375,
      "logps/rejected": -335.24285888671875,
      "loss": 0.6703,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.40806159377098083,
      "rewards/margins": -0.019612746313214302,
      "rewards/rejected": -0.38844889402389526,
      "step": 73
    },
    {
      "epoch": 0.15818303273213094,
      "grad_norm": 6.2106979275919025,
      "learning_rate": 9.898376992116177e-07,
      "logits/chosen": -0.9612334370613098,
      "logits/rejected": -0.9398088455200195,
      "logps/chosen": -282.431640625,
      "logps/rejected": -281.66558837890625,
      "loss": 0.6763,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.3227473497390747,
      "rewards/margins": 0.047923244535923004,
      "rewards/rejected": -0.3706705868244171,
      "step": 74
    },
    {
      "epoch": 0.16032064128256512,
      "grad_norm": 5.916909013866816,
      "learning_rate": 9.890738003669027e-07,
      "logits/chosen": -0.8319401741027832,
      "logits/rejected": -0.815265953540802,
      "logps/chosen": -281.00518798828125,
      "logps/rejected": -273.9776306152344,
      "loss": 0.6605,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.3827057480812073,
      "rewards/margins": 0.0613156333565712,
      "rewards/rejected": -0.4440213441848755,
      "step": 75
    },
    {
      "epoch": 0.16245824983299934,
      "grad_norm": 6.67755131316461,
      "learning_rate": 9.882825379029882e-07,
      "logits/chosen": -0.8953054547309875,
      "logits/rejected": -0.894780695438385,
      "logps/chosen": -312.055908203125,
      "logps/rejected": -330.704833984375,
      "loss": 0.6602,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.45433858036994934,
      "rewards/margins": 0.07449479401111603,
      "rewards/rejected": -0.5288333892822266,
      "step": 76
    },
    {
      "epoch": 0.16459585838343355,
      "grad_norm": 6.2117918809225765,
      "learning_rate": 9.874639560909118e-07,
      "logits/chosen": -0.9046330451965332,
      "logits/rejected": -0.898413360118866,
      "logps/chosen": -294.0129089355469,
      "logps/rejected": -299.68560791015625,
      "loss": 0.6753,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.4101888835430145,
      "rewards/margins": 0.12080243229866028,
      "rewards/rejected": -0.5309913158416748,
      "step": 77
    },
    {
      "epoch": 0.16673346693386773,
      "grad_norm": 5.632634022928361,
      "learning_rate": 9.866181007302256e-07,
      "logits/chosen": -0.6335713267326355,
      "logits/rejected": -0.6313363313674927,
      "logps/chosen": -281.41400146484375,
      "logps/rejected": -291.63800048828125,
      "loss": 0.6659,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.36711931228637695,
      "rewards/margins": 0.1256605088710785,
      "rewards/rejected": -0.49277979135513306,
      "step": 78
    },
    {
      "epoch": 0.16887107548430194,
      "grad_norm": 6.069106827042514,
      "learning_rate": 9.857450191464337e-07,
      "logits/chosen": -0.7797252535820007,
      "logits/rejected": -0.7820223569869995,
      "logps/chosen": -256.88421630859375,
      "logps/rejected": -279.4145812988281,
      "loss": 0.653,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.3781868815422058,
      "rewards/margins": 0.07347656786441803,
      "rewards/rejected": -0.45166343450546265,
      "step": 79
    },
    {
      "epoch": 0.17100868403473615,
      "grad_norm": 6.074173522598461,
      "learning_rate": 9.848447601883433e-07,
      "logits/chosen": -0.8622775673866272,
      "logits/rejected": -0.8331011533737183,
      "logps/chosen": -309.4617614746094,
      "logps/rejected": -330.5566101074219,
      "loss": 0.6552,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.49035871028900146,
      "rewards/margins": 0.17824454605579376,
      "rewards/rejected": -0.6686033010482788,
      "step": 80
    },
    {
      "epoch": 0.17314629258517034,
      "grad_norm": 6.5133260441754395,
      "learning_rate": 9.839173742253334e-07,
      "logits/chosen": -0.7489383816719055,
      "logits/rejected": -0.781232476234436,
      "logps/chosen": -296.9482116699219,
      "logps/rejected": -327.5967712402344,
      "loss": 0.6688,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.5791828036308289,
      "rewards/margins": 0.188523530960083,
      "rewards/rejected": -0.7677063345909119,
      "step": 81
    },
    {
      "epoch": 0.17528390113560455,
      "grad_norm": 5.74672853077721,
      "learning_rate": 9.82962913144534e-07,
      "logits/chosen": -0.8432500958442688,
      "logits/rejected": -0.8211543560028076,
      "logps/chosen": -293.7790222167969,
      "logps/rejected": -304.9800720214844,
      "loss": 0.6522,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.47243934869766235,
      "rewards/margins": 0.12751685082912445,
      "rewards/rejected": -0.599956214427948,
      "step": 82
    },
    {
      "epoch": 0.17742150968603873,
      "grad_norm": 6.3990299421699675,
      "learning_rate": 9.819814303479267e-07,
      "logits/chosen": -0.9426258206367493,
      "logits/rejected": -0.9214622378349304,
      "logps/chosen": -290.99407958984375,
      "logps/rejected": -301.18212890625,
      "loss": 0.652,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.49375712871551514,
      "rewards/margins": 0.1566104143857956,
      "rewards/rejected": -0.6503674983978271,
      "step": 83
    },
    {
      "epoch": 0.17955911823647294,
      "grad_norm": 6.534280177132367,
      "learning_rate": 9.80972980749353e-07,
      "logits/chosen": -0.8522071838378906,
      "logits/rejected": -0.8386092185974121,
      "logps/chosen": -345.668212890625,
      "logps/rejected": -346.40960693359375,
      "loss": 0.67,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.6266711950302124,
      "rewards/margins": 0.09361431002616882,
      "rewards/rejected": -0.7202855348587036,
      "step": 84
    },
    {
      "epoch": 0.18169672678690715,
      "grad_norm": 6.649073031684906,
      "learning_rate": 9.799376207714444e-07,
      "logits/chosen": -0.7474217414855957,
      "logits/rejected": -0.7404229044914246,
      "logps/chosen": -275.940673828125,
      "logps/rejected": -290.2484130859375,
      "loss": 0.6365,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.41143321990966797,
      "rewards/margins": 0.08391736447811127,
      "rewards/rejected": -0.49535059928894043,
      "step": 85
    },
    {
      "epoch": 0.18383433533734134,
      "grad_norm": 6.963291541132159,
      "learning_rate": 9.788754083424652e-07,
      "logits/chosen": -0.824079692363739,
      "logits/rejected": -0.8041766285896301,
      "logps/chosen": -321.2813720703125,
      "logps/rejected": -339.7249450683594,
      "loss": 0.6636,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.5758030414581299,
      "rewards/margins": 0.19611942768096924,
      "rewards/rejected": -0.7719224095344543,
      "step": 86
    },
    {
      "epoch": 0.18597194388777555,
      "grad_norm": 6.945463717696004,
      "learning_rate": 9.777864028930705e-07,
      "logits/chosen": -0.7686063647270203,
      "logits/rejected": -0.7663296461105347,
      "logps/chosen": -349.73004150390625,
      "logps/rejected": -375.2843017578125,
      "loss": 0.626,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.6469497680664062,
      "rewards/margins": 0.2732096314430237,
      "rewards/rejected": -0.9201593399047852,
      "step": 87
    },
    {
      "epoch": 0.18810955243820976,
      "grad_norm": 6.714366991925423,
      "learning_rate": 9.766706653529812e-07,
      "logits/chosen": -0.782423734664917,
      "logits/rejected": -0.7881312966346741,
      "logps/chosen": -301.2457275390625,
      "logps/rejected": -310.0863037109375,
      "loss": 0.6652,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.5998435616493225,
      "rewards/margins": 0.09575268626213074,
      "rewards/rejected": -0.6955962777137756,
      "step": 88
    },
    {
      "epoch": 0.19024716098864394,
      "grad_norm": 7.241214530195881,
      "learning_rate": 9.755282581475767e-07,
      "logits/chosen": -0.8655251860618591,
      "logits/rejected": -0.8472452163696289,
      "logps/chosen": -398.3143310546875,
      "logps/rejected": -434.9195556640625,
      "loss": 0.6159,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.8902552723884583,
      "rewards/margins": 0.29991066455841064,
      "rewards/rejected": -1.1901659965515137,
      "step": 89
    },
    {
      "epoch": 0.19238476953907815,
      "grad_norm": 7.90505927903396,
      "learning_rate": 9.743592451943998e-07,
      "logits/chosen": -0.8578193783760071,
      "logits/rejected": -0.8561904430389404,
      "logps/chosen": -281.01824951171875,
      "logps/rejected": -304.5150146484375,
      "loss": 0.6939,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.7082527875900269,
      "rewards/margins": 0.08812718093395233,
      "rewards/rejected": -0.7963800430297852,
      "step": 90
    },
    {
      "epoch": 0.19452237808951237,
      "grad_norm": 7.5921079251944,
      "learning_rate": 9.73163691899582e-07,
      "logits/chosen": -0.678159236907959,
      "logits/rejected": -0.6668828725814819,
      "logps/chosen": -300.15338134765625,
      "logps/rejected": -306.63525390625,
      "loss": 0.6812,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.6471429467201233,
      "rewards/margins": 0.08188958466053009,
      "rewards/rejected": -0.729032576084137,
      "step": 91
    },
    {
      "epoch": 0.19665998663994655,
      "grad_norm": 7.137628936459269,
      "learning_rate": 9.719416651541837e-07,
      "logits/chosen": -0.8150886297225952,
      "logits/rejected": -0.8088028430938721,
      "logps/chosen": -431.6229248046875,
      "logps/rejected": -458.9399108886719,
      "loss": 0.643,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.0566003322601318,
      "rewards/margins": 0.2619227468967438,
      "rewards/rejected": -1.3185230493545532,
      "step": 92
    },
    {
      "epoch": 0.19879759519038076,
      "grad_norm": 6.729473146383851,
      "learning_rate": 9.706932333304517e-07,
      "logits/chosen": -0.8243950605392456,
      "logits/rejected": -0.838744580745697,
      "logps/chosen": -312.406494140625,
      "logps/rejected": -335.4088134765625,
      "loss": 0.6498,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -0.7556511759757996,
      "rewards/margins": 0.031043091788887978,
      "rewards/rejected": -0.7866942882537842,
      "step": 93
    },
    {
      "epoch": 0.20093520374081497,
      "grad_norm": 6.624154045427617,
      "learning_rate": 9.694184662779929e-07,
      "logits/chosen": -0.783348560333252,
      "logits/rejected": -0.7991134524345398,
      "logps/chosen": -289.2900695800781,
      "logps/rejected": -290.5962829589844,
      "loss": 0.6525,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.6890867352485657,
      "rewards/margins": 0.08654731512069702,
      "rewards/rejected": -0.7756341099739075,
      "step": 94
    },
    {
      "epoch": 0.20307281229124916,
      "grad_norm": 7.588312119029146,
      "learning_rate": 9.681174353198686e-07,
      "logits/chosen": -0.8928613066673279,
      "logits/rejected": -0.9167020916938782,
      "logps/chosen": -263.0621032714844,
      "logps/rejected": -291.3228759765625,
      "loss": 0.6785,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.6083306670188904,
      "rewards/margins": 0.10731954127550125,
      "rewards/rejected": -0.715650200843811,
      "step": 95
    },
    {
      "epoch": 0.20521042084168337,
      "grad_norm": 7.93175048638323,
      "learning_rate": 9.667902132486008e-07,
      "logits/chosen": -0.7266509532928467,
      "logits/rejected": -0.7005448341369629,
      "logps/chosen": -355.4562072753906,
      "logps/rejected": -368.688232421875,
      "loss": 0.6808,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.9357940554618835,
      "rewards/margins": 0.1980743259191513,
      "rewards/rejected": -1.1338684558868408,
      "step": 96
    },
    {
      "epoch": 0.20734802939211758,
      "grad_norm": 7.282370392547328,
      "learning_rate": 9.65436874322102e-07,
      "logits/chosen": -0.7565743327140808,
      "logits/rejected": -0.765534520149231,
      "logps/chosen": -360.4274597167969,
      "logps/rejected": -397.3307189941406,
      "loss": 0.6365,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.9580825567245483,
      "rewards/margins": 0.27880433201789856,
      "rewards/rejected": -1.2368868589401245,
      "step": 97
    },
    {
      "epoch": 0.20948563794255176,
      "grad_norm": 7.307890632023091,
      "learning_rate": 9.640574942595194e-07,
      "logits/chosen": -0.6865275502204895,
      "logits/rejected": -0.6510294079780579,
      "logps/chosen": -299.5666198730469,
      "logps/rejected": -315.7306823730469,
      "loss": 0.637,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.6532863974571228,
      "rewards/margins": 0.1549152433872223,
      "rewards/rejected": -0.8082016706466675,
      "step": 98
    },
    {
      "epoch": 0.21162324649298597,
      "grad_norm": 7.447581281931192,
      "learning_rate": 9.626521502369983e-07,
      "logits/chosen": -0.6352126598358154,
      "logits/rejected": -0.6191614866256714,
      "logps/chosen": -293.2029113769531,
      "logps/rejected": -306.13330078125,
      "loss": 0.6658,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.7388824224472046,
      "rewards/margins": 0.15435971319675446,
      "rewards/rejected": -0.8932421803474426,
      "step": 99
    },
    {
      "epoch": 0.21376085504342018,
      "grad_norm": 6.648161187751906,
      "learning_rate": 9.612209208833646e-07,
      "logits/chosen": -0.7408478856086731,
      "logits/rejected": -0.7513828277587891,
      "logps/chosen": -301.5423583984375,
      "logps/rejected": -345.68682861328125,
      "loss": 0.628,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.7927481532096863,
      "rewards/margins": 0.24078083038330078,
      "rewards/rejected": -1.0335289239883423,
      "step": 100
    },
    {
      "epoch": 0.21376085504342018,
      "eval_logits/chosen": -0.7527643442153931,
      "eval_logits/rejected": -0.7538674473762512,
      "eval_logps/chosen": -343.6059875488281,
      "eval_logps/rejected": -362.7133483886719,
      "eval_loss": 0.6641345024108887,
      "eval_rewards/accuracies": 0.6239837408065796,
      "eval_rewards/chosen": -0.8805798888206482,
      "eval_rewards/margins": 0.1340140700340271,
      "eval_rewards/rejected": -1.0145939588546753,
      "eval_runtime": 372.3126,
      "eval_samples_per_second": 5.267,
      "eval_steps_per_second": 0.33,
      "step": 100
    },
    {
      "epoch": 0.21589846359385437,
      "grad_norm": 7.778718674441958,
      "learning_rate": 9.597638862757253e-07,
      "logits/chosen": -0.8201433420181274,
      "logits/rejected": -0.8069182634353638,
      "logps/chosen": -256.0120849609375,
      "logps/rejected": -269.8443603515625,
      "loss": 0.6831,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.656363844871521,
      "rewards/margins": 0.05751778930425644,
      "rewards/rejected": -0.7138815522193909,
      "step": 101
    },
    {
      "epoch": 0.21803607214428858,
      "grad_norm": 7.5706021854045185,
      "learning_rate": 9.58281127934988e-07,
      "logits/chosen": -0.6860804557800293,
      "logits/rejected": -0.7110453844070435,
      "logps/chosen": -368.2939453125,
      "logps/rejected": -393.86029052734375,
      "loss": 0.6576,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.020776391029358,
      "rewards/margins": 0.1516759693622589,
      "rewards/rejected": -1.172452449798584,
      "step": 102
    },
    {
      "epoch": 0.2201736806947228,
      "grad_norm": 8.607842129213472,
      "learning_rate": 9.567727288213004e-07,
      "logits/chosen": -0.7699592113494873,
      "logits/rejected": -0.7589491605758667,
      "logps/chosen": -324.6326904296875,
      "logps/rejected": -358.59820556640625,
      "loss": 0.7094,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -1.0056777000427246,
      "rewards/margins": 0.18924392759799957,
      "rewards/rejected": -1.1949217319488525,
      "step": 103
    },
    {
      "epoch": 0.22231128924515697,
      "grad_norm": 7.291755560282041,
      "learning_rate": 9.552387733294078e-07,
      "logits/chosen": -0.6555180549621582,
      "logits/rejected": -0.6659807562828064,
      "logps/chosen": -330.6410827636719,
      "logps/rejected": -359.6870422363281,
      "loss": 0.6453,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.8741835355758667,
      "rewards/margins": 0.2183988094329834,
      "rewards/rejected": -1.09258234500885,
      "step": 104
    },
    {
      "epoch": 0.22444889779559118,
      "grad_norm": 7.775554579983475,
      "learning_rate": 9.536793472839324e-07,
      "logits/chosen": -0.6701323986053467,
      "logits/rejected": -0.6589778661727905,
      "logps/chosen": -285.3506164550781,
      "logps/rejected": -288.3831481933594,
      "loss": 0.6488,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.7929357290267944,
      "rewards/margins": 0.09136777371168137,
      "rewards/rejected": -0.8843034505844116,
      "step": 105
    },
    {
      "epoch": 0.2265865063460254,
      "grad_norm": 7.266567693754681,
      "learning_rate": 9.520945379345699e-07,
      "logits/chosen": -0.8183209300041199,
      "logits/rejected": -0.8361554741859436,
      "logps/chosen": -397.4153747558594,
      "logps/rejected": -423.17333984375,
      "loss": 0.6383,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.1003904342651367,
      "rewards/margins": 0.1266530454158783,
      "rewards/rejected": -1.2270435094833374,
      "step": 106
    },
    {
      "epoch": 0.22872411489645958,
      "grad_norm": 7.518282958403423,
      "learning_rate": 9.504844339512094e-07,
      "logits/chosen": -0.8879948854446411,
      "logits/rejected": -0.8571330904960632,
      "logps/chosen": -287.59051513671875,
      "logps/rejected": -297.351318359375,
      "loss": 0.6476,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.7065630555152893,
      "rewards/margins": 0.15939508378505707,
      "rewards/rejected": -0.8659580945968628,
      "step": 107
    },
    {
      "epoch": 0.2308617234468938,
      "grad_norm": 7.824671981101,
      "learning_rate": 9.488491254189716e-07,
      "logits/chosen": -0.8066489696502686,
      "logits/rejected": -0.8055952191352844,
      "logps/chosen": -404.3518981933594,
      "logps/rejected": -442.6438903808594,
      "loss": 0.6404,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.0566518306732178,
      "rewards/margins": 0.3284587264060974,
      "rewards/rejected": -1.3851103782653809,
      "step": 108
    },
    {
      "epoch": 0.232999331997328,
      "grad_norm": 8.83083617083813,
      "learning_rate": 9.471887038331684e-07,
      "logits/chosen": -0.7246598601341248,
      "logits/rejected": -0.7441533207893372,
      "logps/chosen": -354.1577453613281,
      "logps/rejected": -366.261962890625,
      "loss": 0.6873,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.9086767435073853,
      "rewards/margins": 0.14375557005405426,
      "rewards/rejected": -1.0524324178695679,
      "step": 109
    },
    {
      "epoch": 0.23513694054776219,
      "grad_norm": 6.762910416252425,
      "learning_rate": 9.455032620941839e-07,
      "logits/chosen": -0.7163547277450562,
      "logits/rejected": -0.7031821608543396,
      "logps/chosen": -281.1316833496094,
      "logps/rejected": -283.372314453125,
      "loss": 0.6652,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.6051456332206726,
      "rewards/margins": 0.09137356281280518,
      "rewards/rejected": -0.6965191960334778,
      "step": 110
    },
    {
      "epoch": 0.2372745490981964,
      "grad_norm": 7.354791673779593,
      "learning_rate": 9.43792894502277e-07,
      "logits/chosen": -0.6413677334785461,
      "logits/rejected": -0.6314007043838501,
      "logps/chosen": -341.87396240234375,
      "logps/rejected": -356.4854736328125,
      "loss": 0.6642,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.8350028395652771,
      "rewards/margins": 0.21570800244808197,
      "rewards/rejected": -1.050710916519165,
      "step": 111
    },
    {
      "epoch": 0.2394121576486306,
      "grad_norm": 7.625646719699033,
      "learning_rate": 9.420576967523048e-07,
      "logits/chosen": -0.7540197968482971,
      "logits/rejected": -0.7288798093795776,
      "logps/chosen": -290.5899963378906,
      "logps/rejected": -294.30804443359375,
      "loss": 0.6563,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.6742240786552429,
      "rewards/margins": 0.1976398229598999,
      "rewards/rejected": -0.8718639612197876,
      "step": 112
    },
    {
      "epoch": 0.2415497661990648,
      "grad_norm": 7.749312449639858,
      "learning_rate": 9.402977659283689e-07,
      "logits/chosen": -0.773981511592865,
      "logits/rejected": -0.7674249410629272,
      "logps/chosen": -323.57000732421875,
      "logps/rejected": -349.71990966796875,
      "loss": 0.6365,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.7962589859962463,
      "rewards/margins": 0.18393486738204956,
      "rewards/rejected": -0.9801937937736511,
      "step": 113
    },
    {
      "epoch": 0.243687374749499,
      "grad_norm": 7.4503816098925055,
      "learning_rate": 9.385132004983832e-07,
      "logits/chosen": -0.7875250577926636,
      "logits/rejected": -0.7886217832565308,
      "logps/chosen": -289.820068359375,
      "logps/rejected": -307.18914794921875,
      "loss": 0.6351,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.6762690544128418,
      "rewards/margins": 0.16321714222431183,
      "rewards/rejected": -0.8394861817359924,
      "step": 114
    },
    {
      "epoch": 0.2458249832999332,
      "grad_norm": 7.383473143295883,
      "learning_rate": 9.367041003085648e-07,
      "logits/chosen": -0.811254620552063,
      "logits/rejected": -0.8413273692131042,
      "logps/chosen": -328.42877197265625,
      "logps/rejected": -360.35430908203125,
      "loss": 0.6373,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.6836004257202148,
      "rewards/margins": 0.1819692850112915,
      "rewards/rejected": -0.8655696511268616,
      "step": 115
    },
    {
      "epoch": 0.2479625918503674,
      "grad_norm": 6.933138308165148,
      "learning_rate": 9.348705665778477e-07,
      "logits/chosen": -0.7606134414672852,
      "logits/rejected": -0.7490028142929077,
      "logps/chosen": -342.7862548828125,
      "logps/rejected": -355.22943115234375,
      "loss": 0.6449,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.9342496991157532,
      "rewards/margins": 0.09783473610877991,
      "rewards/rejected": -1.0320844650268555,
      "step": 116
    },
    {
      "epoch": 0.2501002004008016,
      "grad_norm": 6.9991891498789744,
      "learning_rate": 9.330127018922193e-07,
      "logits/chosen": -0.7081186771392822,
      "logits/rejected": -0.7329989075660706,
      "logps/chosen": -361.0794372558594,
      "logps/rejected": -369.33721923828125,
      "loss": 0.6483,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.8992618322372437,
      "rewards/margins": 0.12093706429004669,
      "rewards/rejected": -1.020198941230774,
      "step": 117
    },
    {
      "epoch": 0.2522378089512358,
      "grad_norm": 6.891968237145087,
      "learning_rate": 9.311306101989812e-07,
      "logits/chosen": -0.7707226872444153,
      "logits/rejected": -0.775468111038208,
      "logps/chosen": -328.4278869628906,
      "logps/rejected": -375.73712158203125,
      "loss": 0.6215,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.7947558164596558,
      "rewards/margins": 0.2816506326198578,
      "rewards/rejected": -1.076406478881836,
      "step": 118
    },
    {
      "epoch": 0.25437541750167003,
      "grad_norm": 7.78238688784484,
      "learning_rate": 9.29224396800933e-07,
      "logits/chosen": -0.8061501383781433,
      "logits/rejected": -0.7823886275291443,
      "logps/chosen": -322.4601135253906,
      "logps/rejected": -329.06744384765625,
      "loss": 0.6551,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.8091481924057007,
      "rewards/margins": -0.014971929602324963,
      "rewards/rejected": -0.7941762208938599,
      "step": 119
    },
    {
      "epoch": 0.2565130260521042,
      "grad_norm": 7.538013946361546,
      "learning_rate": 9.272941683504808e-07,
      "logits/chosen": -0.7215307950973511,
      "logits/rejected": -0.7078826427459717,
      "logps/chosen": -356.06005859375,
      "logps/rejected": -357.49774169921875,
      "loss": 0.6384,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.8885184526443481,
      "rewards/margins": 0.18230639398097992,
      "rewards/rejected": -1.0708248615264893,
      "step": 120
    },
    {
      "epoch": 0.2586506346025384,
      "grad_norm": 7.545420813102953,
      "learning_rate": 9.253400328436698e-07,
      "logits/chosen": -0.7346601486206055,
      "logits/rejected": -0.7335522174835205,
      "logps/chosen": -344.805419921875,
      "logps/rejected": -350.87725830078125,
      "loss": 0.6594,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.8253999948501587,
      "rewards/margins": 0.0806780755519867,
      "rewards/rejected": -0.9060779809951782,
      "step": 121
    },
    {
      "epoch": 0.2607882431529726,
      "grad_norm": 7.7074461457899535,
      "learning_rate": 9.233620996141421e-07,
      "logits/chosen": -0.8815721273422241,
      "logits/rejected": -0.8621220588684082,
      "logps/chosen": -336.6763610839844,
      "logps/rejected": -341.74798583984375,
      "loss": 0.6341,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.7817858457565308,
      "rewards/margins": 0.07886642962694168,
      "rewards/rejected": -0.8606522083282471,
      "step": 122
    },
    {
      "epoch": 0.2629258517034068,
      "grad_norm": 7.761484323525846,
      "learning_rate": 9.213604793270196e-07,
      "logits/chosen": -0.8222033977508545,
      "logits/rejected": -0.8148404955863953,
      "logps/chosen": -303.2247009277344,
      "logps/rejected": -315.91888427734375,
      "loss": 0.6419,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.7392472624778748,
      "rewards/margins": 0.13012456893920898,
      "rewards/rejected": -0.869371771812439,
      "step": 123
    },
    {
      "epoch": 0.26506346025384103,
      "grad_norm": 8.151352928349633,
      "learning_rate": 9.19335283972712e-07,
      "logits/chosen": -0.7656688690185547,
      "logits/rejected": -0.7709140181541443,
      "logps/chosen": -374.8747253417969,
      "logps/rejected": -376.098876953125,
      "loss": 0.6754,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.005488634109497,
      "rewards/margins": 0.06390834599733353,
      "rewards/rejected": -1.06939697265625,
      "step": 124
    },
    {
      "epoch": 0.26720106880427524,
      "grad_norm": 7.63262703375028,
      "learning_rate": 9.172866268606513e-07,
      "logits/chosen": -0.755223274230957,
      "logits/rejected": -0.7677374482154846,
      "logps/chosen": -372.7818603515625,
      "logps/rejected": -385.9354248046875,
      "loss": 0.6662,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.8667163848876953,
      "rewards/margins": 0.20413543283939362,
      "rewards/rejected": -1.0708518028259277,
      "step": 125
    },
    {
      "epoch": 0.2693386773547094,
      "grad_norm": 7.478834701874977,
      "learning_rate": 9.152146226129518e-07,
      "logits/chosen": -0.7996259927749634,
      "logits/rejected": -0.7835624814033508,
      "logps/chosen": -292.76129150390625,
      "logps/rejected": -333.20477294921875,
      "loss": 0.6172,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.7281415462493896,
      "rewards/margins": 0.3209742605686188,
      "rewards/rejected": -1.049115777015686,
      "step": 126
    },
    {
      "epoch": 0.2714762859051436,
      "grad_norm": 7.082169803011623,
      "learning_rate": 9.131193871579974e-07,
      "logits/chosen": -0.8138784766197205,
      "logits/rejected": -0.829187273979187,
      "logps/chosen": -353.7518615722656,
      "logps/rejected": -404.1153564453125,
      "loss": 0.6436,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.8756864070892334,
      "rewards/margins": 0.2420441061258316,
      "rewards/rejected": -1.1177304983139038,
      "step": 127
    },
    {
      "epoch": 0.2736138944555778,
      "grad_norm": 7.237862112577957,
      "learning_rate": 9.11001037723955e-07,
      "logits/chosen": -0.7936111688613892,
      "logits/rejected": -0.8008431196212769,
      "logps/chosen": -332.17718505859375,
      "logps/rejected": -352.5616760253906,
      "loss": 0.6689,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.7826520800590515,
      "rewards/margins": 0.20596377551555634,
      "rewards/rejected": -0.988615870475769,
      "step": 128
    },
    {
      "epoch": 0.27575150300601203,
      "grad_norm": 8.604847241866956,
      "learning_rate": 9.088596928322157e-07,
      "logits/chosen": -0.8067824840545654,
      "logits/rejected": -0.8039845824241638,
      "logps/chosen": -333.2156982421875,
      "logps/rejected": -357.6597595214844,
      "loss": 0.6587,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.787762463092804,
      "rewards/margins": 0.017246991395950317,
      "rewards/rejected": -0.8050093650817871,
      "step": 129
    },
    {
      "epoch": 0.27788911155644624,
      "grad_norm": 8.324207089057085,
      "learning_rate": 9.066954722907638e-07,
      "logits/chosen": -0.6775297522544861,
      "logits/rejected": -0.7070217132568359,
      "logps/chosen": -324.43402099609375,
      "logps/rejected": -350.53851318359375,
      "loss": 0.645,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.7566977739334106,
      "rewards/margins": 0.24282482266426086,
      "rewards/rejected": -0.9995224475860596,
      "step": 130
    },
    {
      "epoch": 0.2800267201068804,
      "grad_norm": 7.364170729863742,
      "learning_rate": 9.045084971874737e-07,
      "logits/chosen": -0.7260534167289734,
      "logits/rejected": -0.7187973260879517,
      "logps/chosen": -294.4010925292969,
      "logps/rejected": -310.21136474609375,
      "loss": 0.6398,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.7721171379089355,
      "rewards/margins": 0.15222765505313873,
      "rewards/rejected": -0.9243447184562683,
      "step": 131
    },
    {
      "epoch": 0.2821643286573146,
      "grad_norm": 7.35116325693309,
      "learning_rate": 9.022988898833342e-07,
      "logits/chosen": -0.7463628053665161,
      "logits/rejected": -0.7459514141082764,
      "logps/chosen": -329.623779296875,
      "logps/rejected": -356.4615783691406,
      "loss": 0.5991,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.8810457587242126,
      "rewards/margins": 0.1869642734527588,
      "rewards/rejected": -1.0680099725723267,
      "step": 132
    },
    {
      "epoch": 0.2843019372077488,
      "grad_norm": 7.43517337943034,
      "learning_rate": 9.000667740056032e-07,
      "logits/chosen": -0.7253285646438599,
      "logits/rejected": -0.7020008563995361,
      "logps/chosen": -341.2428894042969,
      "logps/rejected": -399.8907470703125,
      "loss": 0.6251,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.9917829036712646,
      "rewards/margins": 0.3243829011917114,
      "rewards/rejected": -1.3161659240722656,
      "step": 133
    },
    {
      "epoch": 0.28643954575818303,
      "grad_norm": 8.02042016596172,
      "learning_rate": 8.978122744408905e-07,
      "logits/chosen": -0.6935924887657166,
      "logits/rejected": -0.6478650569915771,
      "logps/chosen": -383.7857971191406,
      "logps/rejected": -403.4067077636719,
      "loss": 0.6472,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.0208508968353271,
      "rewards/margins": 0.2477567493915558,
      "rewards/rejected": -1.2686076164245605,
      "step": 134
    },
    {
      "epoch": 0.28857715430861725,
      "grad_norm": 7.085674453391065,
      "learning_rate": 8.955355173281707e-07,
      "logits/chosen": -0.7271559238433838,
      "logits/rejected": -0.7309106588363647,
      "logps/chosen": -310.3777160644531,
      "logps/rejected": -329.25323486328125,
      "loss": 0.6007,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.7959171533584595,
      "rewards/margins": 0.21840126812458038,
      "rewards/rejected": -1.0143184661865234,
      "step": 135
    },
    {
      "epoch": 0.29071476285905146,
      "grad_norm": 7.837723075107936,
      "learning_rate": 8.932366300517249e-07,
      "logits/chosen": -0.771674633026123,
      "logits/rejected": -0.7675716280937195,
      "logps/chosen": -381.0829772949219,
      "logps/rejected": -408.50616455078125,
      "loss": 0.6332,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.0345312356948853,
      "rewards/margins": 0.18286427855491638,
      "rewards/rejected": -1.217395544052124,
      "step": 136
    },
    {
      "epoch": 0.2928523714094856,
      "grad_norm": 9.181399284387098,
      "learning_rate": 8.909157412340149e-07,
      "logits/chosen": -0.837311863899231,
      "logits/rejected": -0.8280692100524902,
      "logps/chosen": -368.6721496582031,
      "logps/rejected": -397.39056396484375,
      "loss": 0.672,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -1.0871038436889648,
      "rewards/margins": 0.1502176821231842,
      "rewards/rejected": -1.2373214960098267,
      "step": 137
    },
    {
      "epoch": 0.2949899799599198,
      "grad_norm": 8.547486747659995,
      "learning_rate": 8.885729807284854e-07,
      "logits/chosen": -0.6511350274085999,
      "logits/rejected": -0.6316956877708435,
      "logps/chosen": -367.9530029296875,
      "logps/rejected": -376.24652099609375,
      "loss": 0.6666,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.1004064083099365,
      "rewards/margins": 0.1894245594739914,
      "rewards/rejected": -1.2898309230804443,
      "step": 138
    },
    {
      "epoch": 0.29712758851035403,
      "grad_norm": 7.209713050210504,
      "learning_rate": 8.862084796122997e-07,
      "logits/chosen": -0.7271043658256531,
      "logits/rejected": -0.7313827276229858,
      "logps/chosen": -305.42919921875,
      "logps/rejected": -366.8320007324219,
      "loss": 0.6285,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.8596370816230774,
      "rewards/margins": 0.34605735540390015,
      "rewards/rejected": -1.205694556236267,
      "step": 139
    },
    {
      "epoch": 0.29926519706078825,
      "grad_norm": 8.777840373189521,
      "learning_rate": 8.838223701790055e-07,
      "logits/chosen": -0.8329405188560486,
      "logits/rejected": -0.8425594568252563,
      "logps/chosen": -334.819580078125,
      "logps/rejected": -353.1991882324219,
      "loss": 0.6789,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.9176943898200989,
      "rewards/margins": 0.08534470945596695,
      "rewards/rejected": -1.0030391216278076,
      "step": 140
    },
    {
      "epoch": 0.30140280561122246,
      "grad_norm": 8.349695032017713,
      "learning_rate": 8.814147859311332e-07,
      "logits/chosen": -0.7287541031837463,
      "logits/rejected": -0.747150182723999,
      "logps/chosen": -338.96990966796875,
      "logps/rejected": -393.1916809082031,
      "loss": 0.6085,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.868696928024292,
      "rewards/margins": 0.3027462959289551,
      "rewards/rejected": -1.1714433431625366,
      "step": 141
    },
    {
      "epoch": 0.30354041416165667,
      "grad_norm": 8.507916003943253,
      "learning_rate": 8.789858615727264e-07,
      "logits/chosen": -0.6775808930397034,
      "logits/rejected": -0.6213993430137634,
      "logps/chosen": -374.7777099609375,
      "logps/rejected": -441.28265380859375,
      "loss": 0.5921,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.076945424079895,
      "rewards/margins": 0.4260719418525696,
      "rewards/rejected": -1.5030174255371094,
      "step": 142
    },
    {
      "epoch": 0.3056780227120908,
      "grad_norm": 8.266582578388473,
      "learning_rate": 8.765357330018055e-07,
      "logits/chosen": -0.7523927092552185,
      "logits/rejected": -0.7748714685440063,
      "logps/chosen": -353.6466064453125,
      "logps/rejected": -402.60662841796875,
      "loss": 0.625,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.0103652477264404,
      "rewards/margins": 0.3086761236190796,
      "rewards/rejected": -1.31904137134552,
      "step": 143
    },
    {
      "epoch": 0.30781563126252504,
      "grad_norm": 8.078736110217639,
      "learning_rate": 8.740645373027634e-07,
      "logits/chosen": -0.72418212890625,
      "logits/rejected": -0.7301138639450073,
      "logps/chosen": -414.23004150390625,
      "logps/rejected": -465.2354736328125,
      "loss": 0.6034,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.1818435192108154,
      "rewards/margins": 0.26852208375930786,
      "rewards/rejected": -1.450365662574768,
      "step": 144
    },
    {
      "epoch": 0.30995323981295925,
      "grad_norm": 8.551096723015775,
      "learning_rate": 8.71572412738697e-07,
      "logits/chosen": -0.7613222599029541,
      "logits/rejected": -0.7519202828407288,
      "logps/chosen": -376.8845520019531,
      "logps/rejected": -391.2483215332031,
      "loss": 0.6422,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.2536505460739136,
      "rewards/margins": 0.05302443727850914,
      "rewards/rejected": -1.3066749572753906,
      "step": 145
    },
    {
      "epoch": 0.31209084836339346,
      "grad_norm": 10.264598567431593,
      "learning_rate": 8.690594987436704e-07,
      "logits/chosen": -0.6667072772979736,
      "logits/rejected": -0.651785135269165,
      "logps/chosen": -407.5121765136719,
      "logps/rejected": -414.15325927734375,
      "loss": 0.7022,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.3455419540405273,
      "rewards/margins": 0.1597069501876831,
      "rewards/rejected": -1.5052489042282104,
      "step": 146
    },
    {
      "epoch": 0.31422845691382767,
      "grad_norm": 8.003275854261016,
      "learning_rate": 8.66525935914913e-07,
      "logits/chosen": -0.70644611120224,
      "logits/rejected": -0.7072776556015015,
      "logps/chosen": -298.8578186035156,
      "logps/rejected": -352.6321105957031,
      "loss": 0.6026,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.7530163526535034,
      "rewards/margins": 0.3677568733692169,
      "rewards/rejected": -1.1207730770111084,
      "step": 147
    },
    {
      "epoch": 0.3163660654642619,
      "grad_norm": 9.622881147148561,
      "learning_rate": 8.639718660049554e-07,
      "logits/chosen": -0.7758994102478027,
      "logits/rejected": -0.7696230411529541,
      "logps/chosen": -305.4625549316406,
      "logps/rejected": -307.0013732910156,
      "loss": 0.6654,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.9157548546791077,
      "rewards/margins": 0.10377232730388641,
      "rewards/rejected": -1.0195271968841553,
      "step": 148
    },
    {
      "epoch": 0.31850367401469604,
      "grad_norm": 9.830442606055694,
      "learning_rate": 8.613974319136957e-07,
      "logits/chosen": -0.6808797121047974,
      "logits/rejected": -0.6591075658798218,
      "logps/chosen": -328.95526123046875,
      "logps/rejected": -344.4721374511719,
      "loss": 0.653,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.1110159158706665,
      "rewards/margins": 0.16696244478225708,
      "rewards/rejected": -1.2779783010482788,
      "step": 149
    },
    {
      "epoch": 0.32064128256513025,
      "grad_norm": 8.745762248320213,
      "learning_rate": 8.588027776804058e-07,
      "logits/chosen": -0.7875892519950867,
      "logits/rejected": -0.7677904963493347,
      "logps/chosen": -357.419677734375,
      "logps/rejected": -373.40460205078125,
      "loss": 0.6461,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.0266187191009521,
      "rewards/margins": 0.21186724305152893,
      "rewards/rejected": -1.2384859323501587,
      "step": 150
    },
    {
      "epoch": 0.32277889111556446,
      "grad_norm": 8.312609091320738,
      "learning_rate": 8.561880484756724e-07,
      "logits/chosen": -0.7948569059371948,
      "logits/rejected": -0.7845500707626343,
      "logps/chosen": -341.4780578613281,
      "logps/rejected": -384.87615966796875,
      "loss": 0.622,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.9681000113487244,
      "rewards/margins": 0.3343212306499481,
      "rewards/rejected": -1.30242121219635,
      "step": 151
    },
    {
      "epoch": 0.32491649966599867,
      "grad_norm": 9.180312248349901,
      "learning_rate": 8.535533905932737e-07,
      "logits/chosen": -0.7717313170433044,
      "logits/rejected": -0.7632758617401123,
      "logps/chosen": -349.5531921386719,
      "logps/rejected": -348.3159484863281,
      "loss": 0.6628,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.1458628177642822,
      "rewards/margins": 0.07357059419155121,
      "rewards/rejected": -1.2194334268569946,
      "step": 152
    },
    {
      "epoch": 0.3270541082164329,
      "grad_norm": 8.40986643995496,
      "learning_rate": 8.508989514419958e-07,
      "logits/chosen": -0.6287474036216736,
      "logits/rejected": -0.5992534160614014,
      "logps/chosen": -327.4925842285156,
      "logps/rejected": -357.3055725097656,
      "loss": 0.6299,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.0919466018676758,
      "rewards/margins": 0.2580554485321045,
      "rewards/rejected": -1.3500020503997803,
      "step": 153
    },
    {
      "epoch": 0.3291917167668671,
      "grad_norm": 9.217933303499299,
      "learning_rate": 8.482248795373835e-07,
      "logits/chosen": -0.7915253639221191,
      "logits/rejected": -0.7664984464645386,
      "logps/chosen": -368.6262512207031,
      "logps/rejected": -391.03564453125,
      "loss": 0.6426,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.0133848190307617,
      "rewards/margins": 0.11703261733055115,
      "rewards/rejected": -1.1304173469543457,
      "step": 154
    },
    {
      "epoch": 0.33132932531730125,
      "grad_norm": 8.472153097719477,
      "learning_rate": 8.455313244934324e-07,
      "logits/chosen": -0.8312329649925232,
      "logits/rejected": -0.8426264524459839,
      "logps/chosen": -341.4083251953125,
      "logps/rejected": -377.6736145019531,
      "loss": 0.6149,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.0413603782653809,
      "rewards/margins": 0.24394717812538147,
      "rewards/rejected": -1.2853076457977295,
      "step": 155
    },
    {
      "epoch": 0.33346693386773546,
      "grad_norm": 8.186342714745207,
      "learning_rate": 8.428184370142171e-07,
      "logits/chosen": -0.6921215653419495,
      "logits/rejected": -0.7096705436706543,
      "logps/chosen": -363.21539306640625,
      "logps/rejected": -384.2535400390625,
      "loss": 0.6144,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.9978117346763611,
      "rewards/margins": 0.18856188654899597,
      "rewards/rejected": -1.1863737106323242,
      "step": 156
    },
    {
      "epoch": 0.33560454241816967,
      "grad_norm": 8.626047256669759,
      "learning_rate": 8.400863688854596e-07,
      "logits/chosen": -0.8120739459991455,
      "logits/rejected": -0.8196284770965576,
      "logps/chosen": -347.4595947265625,
      "logps/rejected": -357.397705078125,
      "loss": 0.6446,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.0381972789764404,
      "rewards/margins": 0.1279696524143219,
      "rewards/rejected": -1.1661670207977295,
      "step": 157
    },
    {
      "epoch": 0.3377421509686039,
      "grad_norm": 11.860996272985476,
      "learning_rate": 8.373352729660372e-07,
      "logits/chosen": -0.7756985425949097,
      "logits/rejected": -0.7191120386123657,
      "logps/chosen": -395.55401611328125,
      "logps/rejected": -403.5904541015625,
      "loss": 0.6526,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.2536171674728394,
      "rewards/margins": 0.026868807151913643,
      "rewards/rejected": -1.280485987663269,
      "step": 158
    },
    {
      "epoch": 0.3398797595190381,
      "grad_norm": 9.122376865267006,
      "learning_rate": 8.34565303179429e-07,
      "logits/chosen": -0.8109874725341797,
      "logits/rejected": -0.784782886505127,
      "logps/chosen": -349.2673645019531,
      "logps/rejected": -355.31427001953125,
      "loss": 0.6482,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -1.1418871879577637,
      "rewards/margins": 0.0541604682803154,
      "rewards/rejected": -1.1960475444793701,
      "step": 159
    },
    {
      "epoch": 0.3420173680694723,
      "grad_norm": 10.446536418824028,
      "learning_rate": 8.317766145051057e-07,
      "logits/chosen": -0.8555909395217896,
      "logits/rejected": -0.8299651145935059,
      "logps/chosen": -393.7392272949219,
      "logps/rejected": -433.85565185546875,
      "loss": 0.68,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.2185660600662231,
      "rewards/margins": 0.22462578117847443,
      "rewards/rejected": -1.4431917667388916,
      "step": 160
    },
    {
      "epoch": 0.34415497661990646,
      "grad_norm": 7.825411706225049,
      "learning_rate": 8.289693629698563e-07,
      "logits/chosen": -0.7958833575248718,
      "logits/rejected": -0.8027774095535278,
      "logps/chosen": -402.79913330078125,
      "logps/rejected": -437.49591064453125,
      "loss": 0.6203,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.1367416381835938,
      "rewards/margins": 0.3376201391220093,
      "rewards/rejected": -1.4743616580963135,
      "step": 161
    },
    {
      "epoch": 0.34629258517034067,
      "grad_norm": 9.034553362218846,
      "learning_rate": 8.261437056390606e-07,
      "logits/chosen": -0.697302520275116,
      "logits/rejected": -0.6625763773918152,
      "logps/chosen": -349.05950927734375,
      "logps/rejected": -353.0817565917969,
      "loss": 0.6857,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.9678500294685364,
      "rewards/margins": 0.10605783760547638,
      "rewards/rejected": -1.0739078521728516,
      "step": 162
    },
    {
      "epoch": 0.3484301937207749,
      "grad_norm": 8.737777630064887,
      "learning_rate": 8.232998006078997e-07,
      "logits/chosen": -0.674803614616394,
      "logits/rejected": -0.6823403835296631,
      "logps/chosen": -358.0148620605469,
      "logps/rejected": -384.6661071777344,
      "loss": 0.6235,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.1485981941223145,
      "rewards/margins": 0.25151392817497253,
      "rewards/rejected": -1.4001121520996094,
      "step": 163
    },
    {
      "epoch": 0.3505678022712091,
      "grad_norm": 9.343701031382219,
      "learning_rate": 8.20437806992512e-07,
      "logits/chosen": -0.7436198592185974,
      "logits/rejected": -0.7431969046592712,
      "logps/chosen": -316.6277770996094,
      "logps/rejected": -367.4931335449219,
      "loss": 0.6664,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.0274879932403564,
      "rewards/margins": 0.1997983604669571,
      "rewards/rejected": -1.2272862195968628,
      "step": 164
    },
    {
      "epoch": 0.3527054108216433,
      "grad_norm": 8.418205426089232,
      "learning_rate": 8.175578849210894e-07,
      "logits/chosen": -0.7993863224983215,
      "logits/rejected": -0.7827702164649963,
      "logps/chosen": -393.60791015625,
      "logps/rejected": -424.71124267578125,
      "loss": 0.6392,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.1842068433761597,
      "rewards/margins": 0.3191227316856384,
      "rewards/rejected": -1.5033295154571533,
      "step": 165
    },
    {
      "epoch": 0.35484301937207746,
      "grad_norm": 8.984910438057955,
      "learning_rate": 8.146601955249187e-07,
      "logits/chosen": -0.7122502326965332,
      "logits/rejected": -0.7099603414535522,
      "logps/chosen": -365.7021179199219,
      "logps/rejected": -365.78912353515625,
      "loss": 0.6637,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.2422032356262207,
      "rewards/margins": -0.04617507755756378,
      "rewards/rejected": -1.196028232574463,
      "step": 166
    },
    {
      "epoch": 0.3569806279225117,
      "grad_norm": 7.926871474687121,
      "learning_rate": 8.117449009293668e-07,
      "logits/chosen": -0.7609111666679382,
      "logits/rejected": -0.7424649000167847,
      "logps/chosen": -367.951416015625,
      "logps/rejected": -388.4793395996094,
      "loss": 0.6288,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.1471714973449707,
      "rewards/margins": 0.1946582943201065,
      "rewards/rejected": -1.341829776763916,
      "step": 167
    },
    {
      "epoch": 0.3591182364729459,
      "grad_norm": 8.370915442021108,
      "learning_rate": 8.088121642448089e-07,
      "logits/chosen": -0.7230314016342163,
      "logits/rejected": -0.7338634729385376,
      "logps/chosen": -383.22216796875,
      "logps/rejected": -422.01068115234375,
      "loss": 0.6387,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.0255863666534424,
      "rewards/margins": 0.5024391412734985,
      "rewards/rejected": -1.528025507926941,
      "step": 168
    },
    {
      "epoch": 0.3612558450233801,
      "grad_norm": 8.13714962488371,
      "learning_rate": 8.058621495575031e-07,
      "logits/chosen": -0.6844447255134583,
      "logits/rejected": -0.6487768888473511,
      "logps/chosen": -350.7132568359375,
      "logps/rejected": -367.8271484375,
      "loss": 0.6105,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.101859450340271,
      "rewards/margins": 0.21480971574783325,
      "rewards/rejected": -1.316669225692749,
      "step": 169
    },
    {
      "epoch": 0.3633934535738143,
      "grad_norm": 9.892000882662467,
      "learning_rate": 8.028950219204099e-07,
      "logits/chosen": -0.5773683190345764,
      "logits/rejected": -0.5765209794044495,
      "logps/chosen": -370.47796630859375,
      "logps/rejected": -415.53167724609375,
      "loss": 0.5997,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.1410350799560547,
      "rewards/margins": 0.3918205499649048,
      "rewards/rejected": -1.532855749130249,
      "step": 170
    },
    {
      "epoch": 0.3655310621242485,
      "grad_norm": 8.106890489682133,
      "learning_rate": 7.999109473439569e-07,
      "logits/chosen": -0.6529942154884338,
      "logits/rejected": -0.6343085169792175,
      "logps/chosen": -358.777099609375,
      "logps/rejected": -388.01995849609375,
      "loss": 0.6249,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.1139953136444092,
      "rewards/margins": 0.19699575006961823,
      "rewards/rejected": -1.3109909296035767,
      "step": 171
    },
    {
      "epoch": 0.3676686706746827,
      "grad_norm": 7.818768691894028,
      "learning_rate": 7.969100927867507e-07,
      "logits/chosen": -0.7647715210914612,
      "logits/rejected": -0.768187940120697,
      "logps/chosen": -315.3676452636719,
      "logps/rejected": -344.0660095214844,
      "loss": 0.6095,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.9741207361221313,
      "rewards/margins": 0.2204282581806183,
      "rewards/rejected": -1.1945490837097168,
      "step": 172
    },
    {
      "epoch": 0.3698062792251169,
      "grad_norm": 8.22923262916057,
      "learning_rate": 7.938926261462365e-07,
      "logits/chosen": -0.7851884961128235,
      "logits/rejected": -0.8041540384292603,
      "logps/chosen": -318.61712646484375,
      "logps/rejected": -398.345458984375,
      "loss": 0.5961,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.9148141741752625,
      "rewards/margins": 0.5934224128723145,
      "rewards/rejected": -1.5082364082336426,
      "step": 173
    },
    {
      "epoch": 0.3719438877755511,
      "grad_norm": 8.000153942367305,
      "learning_rate": 7.908587162493028e-07,
      "logits/chosen": -0.6852933168411255,
      "logits/rejected": -0.6849787831306458,
      "logps/chosen": -406.8155212402344,
      "logps/rejected": -447.3205261230469,
      "loss": 0.6301,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.2369593381881714,
      "rewards/margins": 0.23439320921897888,
      "rewards/rejected": -1.4713525772094727,
      "step": 174
    },
    {
      "epoch": 0.3740814963259853,
      "grad_norm": 9.316195243095242,
      "learning_rate": 7.878085328428368e-07,
      "logits/chosen": -0.7409089803695679,
      "logits/rejected": -0.7157390713691711,
      "logps/chosen": -338.6581115722656,
      "logps/rejected": -357.2071838378906,
      "loss": 0.646,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.051304817199707,
      "rewards/margins": 0.1540244072675705,
      "rewards/rejected": -1.2053292989730835,
      "step": 175
    },
    {
      "epoch": 0.3762191048764195,
      "grad_norm": 9.548217777892644,
      "learning_rate": 7.84742246584226e-07,
      "logits/chosen": -0.644868016242981,
      "logits/rejected": -0.6358535885810852,
      "logps/chosen": -280.54644775390625,
      "logps/rejected": -320.94866943359375,
      "loss": 0.6304,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.9811806082725525,
      "rewards/margins": 0.36237311363220215,
      "rewards/rejected": -1.3435536623001099,
      "step": 176
    },
    {
      "epoch": 0.37835671342685373,
      "grad_norm": 8.213256746442323,
      "learning_rate": 7.81660029031811e-07,
      "logits/chosen": -0.7351135015487671,
      "logits/rejected": -0.7099937796592712,
      "logps/chosen": -403.18609619140625,
      "logps/rejected": -427.598876953125,
      "loss": 0.6286,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.3992477655410767,
      "rewards/margins": 0.21843519806861877,
      "rewards/rejected": -1.6176831722259521,
      "step": 177
    },
    {
      "epoch": 0.3804943219772879,
      "grad_norm": 9.877087816575154,
      "learning_rate": 7.785620526352861e-07,
      "logits/chosen": -0.6065413355827332,
      "logits/rejected": -0.6187620759010315,
      "logps/chosen": -417.3489074707031,
      "logps/rejected": -418.964599609375,
      "loss": 0.6396,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.4968540668487549,
      "rewards/margins": 0.15608513355255127,
      "rewards/rejected": -1.6529392004013062,
      "step": 178
    },
    {
      "epoch": 0.3826319305277221,
      "grad_norm": 9.518985768520599,
      "learning_rate": 7.754484907260512e-07,
      "logits/chosen": -0.6335625648498535,
      "logits/rejected": -0.6501979231834412,
      "logps/chosen": -320.66973876953125,
      "logps/rejected": -377.0364990234375,
      "loss": 0.6203,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.9643224477767944,
      "rewards/margins": 0.4927278459072113,
      "rewards/rejected": -1.4570502042770386,
      "step": 179
    },
    {
      "epoch": 0.3847695390781563,
      "grad_norm": 8.327661579909856,
      "learning_rate": 7.723195175075135e-07,
      "logits/chosen": -0.8008890748023987,
      "logits/rejected": -0.8070433735847473,
      "logps/chosen": -385.35711669921875,
      "logps/rejected": -417.4620056152344,
      "loss": 0.63,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.1224894523620605,
      "rewards/margins": 0.2396533489227295,
      "rewards/rejected": -1.36214280128479,
      "step": 180
    },
    {
      "epoch": 0.3869071476285905,
      "grad_norm": 8.177222796415196,
      "learning_rate": 7.691753080453411e-07,
      "logits/chosen": -0.7654060125350952,
      "logits/rejected": -0.7563324570655823,
      "logps/chosen": -372.6927185058594,
      "logps/rejected": -392.412841796875,
      "loss": 0.6178,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.2625975608825684,
      "rewards/margins": 0.1758994460105896,
      "rewards/rejected": -1.4384969472885132,
      "step": 181
    },
    {
      "epoch": 0.38904475617902473,
      "grad_norm": 8.268029500490163,
      "learning_rate": 7.660160382576683e-07,
      "logits/chosen": -0.8044633865356445,
      "logits/rejected": -0.8295111060142517,
      "logps/chosen": -387.167724609375,
      "logps/rejected": -421.73223876953125,
      "loss": 0.6057,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.2140891551971436,
      "rewards/margins": 0.26494261622428894,
      "rewards/rejected": -1.4790318012237549,
      "step": 182
    },
    {
      "epoch": 0.39118236472945894,
      "grad_norm": 8.205646872076233,
      "learning_rate": 7.628418849052523e-07,
      "logits/chosen": -0.7259032726287842,
      "logits/rejected": -0.7147877812385559,
      "logps/chosen": -332.19952392578125,
      "logps/rejected": -358.916748046875,
      "loss": 0.6335,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.2255278825759888,
      "rewards/margins": 0.18311724066734314,
      "rewards/rejected": -1.4086451530456543,
      "step": 183
    },
    {
      "epoch": 0.3933199732798931,
      "grad_norm": 9.273642724003066,
      "learning_rate": 7.596530255815845e-07,
      "logits/chosen": -0.6111272573471069,
      "logits/rejected": -0.6174825429916382,
      "logps/chosen": -431.119140625,
      "logps/rejected": -474.2237854003906,
      "loss": 0.5914,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.340221643447876,
      "rewards/margins": 0.47385597229003906,
      "rewards/rejected": -1.814077615737915,
      "step": 184
    },
    {
      "epoch": 0.3954575818303273,
      "grad_norm": 9.03001535554559,
      "learning_rate": 7.564496387029531e-07,
      "logits/chosen": -0.5710060000419617,
      "logits/rejected": -0.6027272343635559,
      "logps/chosen": -402.5880432128906,
      "logps/rejected": -461.81390380859375,
      "loss": 0.5815,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.2832955121994019,
      "rewards/margins": 0.44037097692489624,
      "rewards/rejected": -1.7236665487289429,
      "step": 185
    },
    {
      "epoch": 0.3975951903807615,
      "grad_norm": 10.65885585737553,
      "learning_rate": 7.532319034984614e-07,
      "logits/chosen": -0.6792325377464294,
      "logits/rejected": -0.7070844769477844,
      "logps/chosen": -345.3462219238281,
      "logps/rejected": -380.2834167480469,
      "loss": 0.606,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.0898866653442383,
      "rewards/margins": 0.2850308120250702,
      "rewards/rejected": -1.3749175071716309,
      "step": 186
    },
    {
      "epoch": 0.39973279893119573,
      "grad_norm": 10.832365903487103,
      "learning_rate": 7.5e-07,
      "logits/chosen": -0.6209002733230591,
      "logits/rejected": -0.5837200880050659,
      "logps/chosen": -448.4324035644531,
      "logps/rejected": -443.7789306640625,
      "loss": 0.6723,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -1.5713595151901245,
      "rewards/margins": 0.1559199094772339,
      "rewards/rejected": -1.7272793054580688,
      "step": 187
    },
    {
      "epoch": 0.40187040748162994,
      "grad_norm": 8.78650176694853,
      "learning_rate": 7.467541090321733e-07,
      "logits/chosen": -0.6626260876655579,
      "logits/rejected": -0.6681480407714844,
      "logps/chosen": -357.17535400390625,
      "logps/rejected": -392.3631591796875,
      "loss": 0.6327,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.0751440525054932,
      "rewards/margins": 0.28642958402633667,
      "rewards/rejected": -1.361573576927185,
      "step": 188
    },
    {
      "epoch": 0.40400801603206415,
      "grad_norm": 9.268270452493919,
      "learning_rate": 7.434944122021836e-07,
      "logits/chosen": -0.7080458402633667,
      "logits/rejected": -0.6918138861656189,
      "logps/chosen": -428.0231628417969,
      "logps/rejected": -447.84588623046875,
      "loss": 0.5866,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.2396382093429565,
      "rewards/margins": 0.2672892212867737,
      "rewards/rejected": -1.506927490234375,
      "step": 189
    },
    {
      "epoch": 0.4061456245824983,
      "grad_norm": 9.083796097067385,
      "learning_rate": 7.402210918896689e-07,
      "logits/chosen": -0.6990772485733032,
      "logits/rejected": -0.6821334362030029,
      "logps/chosen": -330.4400329589844,
      "logps/rejected": -351.8786926269531,
      "loss": 0.5944,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.078837275505066,
      "rewards/margins": 0.31049594283103943,
      "rewards/rejected": -1.3893331289291382,
      "step": 190
    },
    {
      "epoch": 0.4082832331329325,
      "grad_norm": 8.342069569715447,
      "learning_rate": 7.369343312364993e-07,
      "logits/chosen": -0.6898236870765686,
      "logits/rejected": -0.7303708791732788,
      "logps/chosen": -365.74688720703125,
      "logps/rejected": -406.60125732421875,
      "loss": 0.5822,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.3478041887283325,
      "rewards/margins": 0.3217250108718872,
      "rewards/rejected": -1.6695290803909302,
      "step": 191
    },
    {
      "epoch": 0.41042084168336673,
      "grad_norm": 11.11112446563951,
      "learning_rate": 7.33634314136531e-07,
      "logits/chosen": -0.567010223865509,
      "logits/rejected": -0.5823702812194824,
      "logps/chosen": -351.3297119140625,
      "logps/rejected": -352.91400146484375,
      "loss": 0.6731,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.202454924583435,
      "rewards/margins": 0.1386478990316391,
      "rewards/rejected": -1.3411028385162354,
      "step": 192
    },
    {
      "epoch": 0.41255845023380094,
      "grad_norm": 10.094586281846308,
      "learning_rate": 7.303212252253161e-07,
      "logits/chosen": -0.6867839694023132,
      "logits/rejected": -0.631986677646637,
      "logps/chosen": -446.3096008300781,
      "logps/rejected": -481.1722717285156,
      "loss": 0.5804,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.420650601387024,
      "rewards/margins": 0.3154638409614563,
      "rewards/rejected": -1.7361143827438354,
      "step": 193
    },
    {
      "epoch": 0.41469605878423516,
      "grad_norm": 9.22745603420781,
      "learning_rate": 7.269952498697734e-07,
      "logits/chosen": -0.6122913360595703,
      "logits/rejected": -0.5846338868141174,
      "logps/chosen": -404.2279052734375,
      "logps/rejected": -479.53546142578125,
      "loss": 0.5926,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.4300614595413208,
      "rewards/margins": 0.682074785232544,
      "rewards/rejected": -2.112136125564575,
      "step": 194
    },
    {
      "epoch": 0.4168336673346693,
      "grad_norm": 8.922810963128454,
      "learning_rate": 7.236565741578162e-07,
      "logits/chosen": -0.7965989112854004,
      "logits/rejected": -0.8105958104133606,
      "logps/chosen": -412.70068359375,
      "logps/rejected": -459.9786376953125,
      "loss": 0.6098,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.1933541297912598,
      "rewards/margins": 0.4532015025615692,
      "rewards/rejected": -1.6465556621551514,
      "step": 195
    },
    {
      "epoch": 0.4189712758851035,
      "grad_norm": 9.70951721797377,
      "learning_rate": 7.203053848879418e-07,
      "logits/chosen": -0.66545569896698,
      "logits/rejected": -0.6426224708557129,
      "logps/chosen": -417.62750244140625,
      "logps/rejected": -446.0390625,
      "loss": 0.6345,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.4516615867614746,
      "rewards/margins": 0.234949991106987,
      "rewards/rejected": -1.6866116523742676,
      "step": 196
    },
    {
      "epoch": 0.42110888443553773,
      "grad_norm": 10.834268818449964,
      "learning_rate": 7.16941869558779e-07,
      "logits/chosen": -0.6952583193778992,
      "logits/rejected": -0.6965677738189697,
      "logps/chosen": -447.6587829589844,
      "logps/rejected": -491.00872802734375,
      "loss": 0.6368,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.6263762712478638,
      "rewards/margins": 0.3232609033584595,
      "rewards/rejected": -1.9496371746063232,
      "step": 197
    },
    {
      "epoch": 0.42324649298597194,
      "grad_norm": 10.734655546374897,
      "learning_rate": 7.135662163585984e-07,
      "logits/chosen": -0.7219685316085815,
      "logits/rejected": -0.7239058613777161,
      "logps/chosen": -379.8273620605469,
      "logps/rejected": -416.1621398925781,
      "loss": 0.6473,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.4015758037567139,
      "rewards/margins": 0.279184490442276,
      "rewards/rejected": -1.6807602643966675,
      "step": 198
    },
    {
      "epoch": 0.42538410153640616,
      "grad_norm": 10.226763136881486,
      "learning_rate": 7.101786141547828e-07,
      "logits/chosen": -0.6653244495391846,
      "logits/rejected": -0.6480982303619385,
      "logps/chosen": -388.545166015625,
      "logps/rejected": -400.65447998046875,
      "loss": 0.6346,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.3625783920288086,
      "rewards/margins": 0.17150306701660156,
      "rewards/rejected": -1.5340813398361206,
      "step": 199
    },
    {
      "epoch": 0.42752171008684037,
      "grad_norm": 11.800159452188982,
      "learning_rate": 7.067792524832603e-07,
      "logits/chosen": -0.802920401096344,
      "logits/rejected": -0.7953581213951111,
      "logps/chosen": -469.48583984375,
      "logps/rejected": -514.489501953125,
      "loss": 0.6935,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.7296805381774902,
      "rewards/margins": 0.4207393229007721,
      "rewards/rejected": -2.1504197120666504,
      "step": 200
    },
    {
      "epoch": 0.42752171008684037,
      "eval_logits/chosen": -0.6628897190093994,
      "eval_logits/rejected": -0.6649256348609924,
      "eval_logps/chosen": -392.1436767578125,
      "eval_logps/rejected": -424.3627624511719,
      "eval_loss": 0.635185182094574,
      "eval_rewards/accuracies": 0.6544715166091919,
      "eval_rewards/chosen": -1.3659569025039673,
      "eval_rewards/margins": 0.2651316225528717,
      "eval_rewards/rejected": -1.6310884952545166,
      "eval_runtime": 376.3857,
      "eval_samples_per_second": 5.21,
      "eval_steps_per_second": 0.327,
      "step": 200
    },
    {
      "epoch": 0.4296593186372745,
      "grad_norm": 10.509050348979823,
      "learning_rate": 7.033683215379002e-07,
      "logits/chosen": -0.7490158081054688,
      "logits/rejected": -0.7795702219009399,
      "logps/chosen": -444.27264404296875,
      "logps/rejected": -450.5096435546875,
      "loss": 0.6259,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.6222877502441406,
      "rewards/margins": 0.0773380845785141,
      "rewards/rejected": -1.699625849723816,
      "step": 201
    },
    {
      "epoch": 0.43179692718770873,
      "grad_norm": 9.361779380994284,
      "learning_rate": 6.999460121598704e-07,
      "logits/chosen": -0.8867595195770264,
      "logits/rejected": -0.8778724074363708,
      "logps/chosen": -395.88262939453125,
      "logps/rejected": -424.9254455566406,
      "loss": 0.6199,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.3475773334503174,
      "rewards/margins": 0.2797107696533203,
      "rewards/rejected": -1.6272879838943481,
      "step": 202
    },
    {
      "epoch": 0.43393453573814295,
      "grad_norm": 10.465713404951545,
      "learning_rate": 6.965125158269618e-07,
      "logits/chosen": -0.7478022575378418,
      "logits/rejected": -0.7213735580444336,
      "logps/chosen": -375.4535217285156,
      "logps/rejected": -400.4565734863281,
      "loss": 0.6452,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.3242757320404053,
      "rewards/margins": 0.18743321299552917,
      "rewards/rejected": -1.5117088556289673,
      "step": 203
    },
    {
      "epoch": 0.43607214428857716,
      "grad_norm": 9.542403717436502,
      "learning_rate": 6.93068024642873e-07,
      "logits/chosen": -0.7434294819831848,
      "logits/rejected": -0.7202074527740479,
      "logps/chosen": -367.4134216308594,
      "logps/rejected": -395.12396240234375,
      "loss": 0.6408,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.321439266204834,
      "rewards/margins": 0.3816969692707062,
      "rewards/rejected": -1.7031362056732178,
      "step": 204
    },
    {
      "epoch": 0.43820975283901137,
      "grad_norm": 11.318421364351005,
      "learning_rate": 6.896127313264642e-07,
      "logits/chosen": -0.6576538681983948,
      "logits/rejected": -0.6434054374694824,
      "logps/chosen": -381.1850280761719,
      "logps/rejected": -385.73736572265625,
      "loss": 0.6267,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.294406771659851,
      "rewards/margins": 0.12336639314889908,
      "rewards/rejected": -1.4177730083465576,
      "step": 205
    },
    {
      "epoch": 0.4403473613894456,
      "grad_norm": 8.514452329680676,
      "learning_rate": 6.861468292009726e-07,
      "logits/chosen": -0.652076780796051,
      "logits/rejected": -0.6382969617843628,
      "logps/chosen": -392.5809326171875,
      "logps/rejected": -430.596923828125,
      "loss": 0.6304,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.44416344165802,
      "rewards/margins": 0.37998878955841064,
      "rewards/rejected": -1.8241522312164307,
      "step": 206
    },
    {
      "epoch": 0.44248496993987974,
      "grad_norm": 9.679027742003948,
      "learning_rate": 6.826705121831976e-07,
      "logits/chosen": -0.7171617746353149,
      "logits/rejected": -0.7156708240509033,
      "logps/chosen": -378.35528564453125,
      "logps/rejected": -411.4539489746094,
      "loss": 0.6376,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.3946869373321533,
      "rewards/margins": 0.37037399411201477,
      "rewards/rejected": -1.7650609016418457,
      "step": 207
    },
    {
      "epoch": 0.44462257849031395,
      "grad_norm": 10.610288706227443,
      "learning_rate": 6.7918397477265e-07,
      "logits/chosen": -0.6665509939193726,
      "logits/rejected": -0.6577183604240417,
      "logps/chosen": -365.9376525878906,
      "logps/rejected": -362.8846740722656,
      "loss": 0.6653,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -1.1479219198226929,
      "rewards/margins": 0.01849663257598877,
      "rewards/rejected": -1.1664186716079712,
      "step": 208
    },
    {
      "epoch": 0.44676018704074816,
      "grad_norm": 9.112597710939323,
      "learning_rate": 6.756874120406714e-07,
      "logits/chosen": -0.6265541315078735,
      "logits/rejected": -0.61783766746521,
      "logps/chosen": -381.3807067871094,
      "logps/rejected": -425.4930725097656,
      "loss": 0.6119,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.280937671661377,
      "rewards/margins": 0.3031711280345917,
      "rewards/rejected": -1.584108829498291,
      "step": 209
    },
    {
      "epoch": 0.44889779559118237,
      "grad_norm": 9.390736537982283,
      "learning_rate": 6.721810196195174e-07,
      "logits/chosen": -0.7654869556427002,
      "logits/rejected": -0.7667275071144104,
      "logps/chosen": -417.27069091796875,
      "logps/rejected": -449.1034851074219,
      "loss": 0.6217,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.3596787452697754,
      "rewards/margins": 0.3042774796485901,
      "rewards/rejected": -1.6639561653137207,
      "step": 210
    },
    {
      "epoch": 0.4510354041416166,
      "grad_norm": 9.394078254466548,
      "learning_rate": 6.68664993691415e-07,
      "logits/chosen": -0.6547084450721741,
      "logits/rejected": -0.647241473197937,
      "logps/chosen": -336.94915771484375,
      "logps/rejected": -371.03515625,
      "loss": 0.6312,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.9777745604515076,
      "rewards/margins": 0.2829311490058899,
      "rewards/rejected": -1.2607057094573975,
      "step": 211
    },
    {
      "epoch": 0.4531730126920508,
      "grad_norm": 8.760414806290829,
      "learning_rate": 6.651395309775836e-07,
      "logits/chosen": -0.6064110398292542,
      "logits/rejected": -0.5819242000579834,
      "logps/chosen": -353.7124938964844,
      "logps/rejected": -384.0793151855469,
      "loss": 0.5966,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.1342616081237793,
      "rewards/margins": 0.3782859742641449,
      "rewards/rejected": -1.512547492980957,
      "step": 212
    },
    {
      "epoch": 0.45531062124248495,
      "grad_norm": 9.331952485323354,
      "learning_rate": 6.6160482872723e-07,
      "logits/chosen": -0.6409544944763184,
      "logits/rejected": -0.6478085517883301,
      "logps/chosen": -374.2773742675781,
      "logps/rejected": -397.2945861816406,
      "loss": 0.6342,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.2687841653823853,
      "rewards/margins": 0.11245452612638474,
      "rewards/rejected": -1.3812386989593506,
      "step": 213
    },
    {
      "epoch": 0.45744822979291916,
      "grad_norm": 9.844190008748196,
      "learning_rate": 6.580610847065123e-07,
      "logits/chosen": -0.6078667640686035,
      "logits/rejected": -0.60109543800354,
      "logps/chosen": -357.74810791015625,
      "logps/rejected": -391.06268310546875,
      "loss": 0.614,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.1224141120910645,
      "rewards/margins": 0.23654705286026,
      "rewards/rejected": -1.3589611053466797,
      "step": 214
    },
    {
      "epoch": 0.45958583834335337,
      "grad_norm": 9.317047438854233,
      "learning_rate": 6.545084971874736e-07,
      "logits/chosen": -0.608707845211029,
      "logits/rejected": -0.6254767775535583,
      "logps/chosen": -340.4634094238281,
      "logps/rejected": -377.37152099609375,
      "loss": 0.655,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.0063505172729492,
      "rewards/margins": 0.29992133378982544,
      "rewards/rejected": -1.3062719106674194,
      "step": 215
    },
    {
      "epoch": 0.4617234468937876,
      "grad_norm": 9.52121536372048,
      "learning_rate": 6.509472649369509e-07,
      "logits/chosen": -0.642886221408844,
      "logits/rejected": -0.6272940039634705,
      "logps/chosen": -324.8238525390625,
      "logps/rejected": -367.4193115234375,
      "loss": 0.5939,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.9792121052742004,
      "rewards/margins": 0.3688339293003082,
      "rewards/rejected": -1.3480459451675415,
      "step": 216
    },
    {
      "epoch": 0.4638610554442218,
      "grad_norm": 10.890742309360663,
      "learning_rate": 6.473775872054521e-07,
      "logits/chosen": -0.6968441009521484,
      "logits/rejected": -0.6998182535171509,
      "logps/chosen": -425.0888977050781,
      "logps/rejected": -457.17889404296875,
      "loss": 0.6358,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.394580364227295,
      "rewards/margins": 0.2801092267036438,
      "rewards/rejected": -1.6746896505355835,
      "step": 217
    },
    {
      "epoch": 0.465998663994656,
      "grad_norm": 8.973438938365845,
      "learning_rate": 6.437996637160086e-07,
      "logits/chosen": -0.6339977979660034,
      "logits/rejected": -0.605747401714325,
      "logps/chosen": -359.0996398925781,
      "logps/rejected": -398.10284423828125,
      "loss": 0.6284,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.1331509351730347,
      "rewards/margins": 0.29103800654411316,
      "rewards/rejected": -1.4241892099380493,
      "step": 218
    },
    {
      "epoch": 0.46813627254509016,
      "grad_norm": 9.024594454350343,
      "learning_rate": 6.402136946530014e-07,
      "logits/chosen": -0.6726840734481812,
      "logits/rejected": -0.6727656722068787,
      "logps/chosen": -411.4464111328125,
      "logps/rejected": -438.1039733886719,
      "loss": 0.6074,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.137448787689209,
      "rewards/margins": 0.2949088513851166,
      "rewards/rejected": -1.4323575496673584,
      "step": 219
    },
    {
      "epoch": 0.47027388109552437,
      "grad_norm": 9.318954884923675,
      "learning_rate": 6.3661988065096e-07,
      "logits/chosen": -0.5828653573989868,
      "logits/rejected": -0.5879778861999512,
      "logps/chosen": -416.6065673828125,
      "logps/rejected": -447.0008544921875,
      "loss": 0.6169,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.4899258613586426,
      "rewards/margins": 0.2851335406303406,
      "rewards/rejected": -1.7750593423843384,
      "step": 220
    },
    {
      "epoch": 0.4724114896459586,
      "grad_norm": 10.91663306855251,
      "learning_rate": 6.330184227833375e-07,
      "logits/chosen": -0.6656166315078735,
      "logits/rejected": -0.654589056968689,
      "logps/chosen": -380.12811279296875,
      "logps/rejected": -417.3984069824219,
      "loss": 0.5782,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.2443169355392456,
      "rewards/margins": 0.4823899269104004,
      "rewards/rejected": -1.726706862449646,
      "step": 221
    },
    {
      "epoch": 0.4745490981963928,
      "grad_norm": 9.66304655835996,
      "learning_rate": 6.294095225512604e-07,
      "logits/chosen": -0.6804403066635132,
      "logits/rejected": -0.6730751395225525,
      "logps/chosen": -391.51995849609375,
      "logps/rejected": -434.95928955078125,
      "loss": 0.6007,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.164958119392395,
      "rewards/margins": 0.4750928580760956,
      "rewards/rejected": -1.640051007270813,
      "step": 222
    },
    {
      "epoch": 0.476686706746827,
      "grad_norm": 11.307540321918372,
      "learning_rate": 6.257933818722542e-07,
      "logits/chosen": -0.6279383301734924,
      "logits/rejected": -0.6163449883460999,
      "logps/chosen": -376.4117736816406,
      "logps/rejected": -397.33917236328125,
      "loss": 0.6871,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -1.320064663887024,
      "rewards/margins": 0.12475023418664932,
      "rewards/rejected": -1.444814920425415,
      "step": 223
    },
    {
      "epoch": 0.4788243152972612,
      "grad_norm": 9.673767465041793,
      "learning_rate": 6.22170203068947e-07,
      "logits/chosen": -0.711574912071228,
      "logits/rejected": -0.6971991062164307,
      "logps/chosen": -370.3948059082031,
      "logps/rejected": -394.70379638671875,
      "loss": 0.594,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.2323672771453857,
      "rewards/margins": 0.2632126808166504,
      "rewards/rejected": -1.4955798387527466,
      "step": 224
    },
    {
      "epoch": 0.48096192384769537,
      "grad_norm": 14.301565196390225,
      "learning_rate": 6.185401888577487e-07,
      "logits/chosen": -0.7201038599014282,
      "logits/rejected": -0.713502049446106,
      "logps/chosen": -411.15997314453125,
      "logps/rejected": -440.4834289550781,
      "loss": 0.6286,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.4549378156661987,
      "rewards/margins": 0.26348626613616943,
      "rewards/rejected": -1.7184242010116577,
      "step": 225
    },
    {
      "epoch": 0.4830995323981296,
      "grad_norm": 10.44824838559519,
      "learning_rate": 6.149035423375098e-07,
      "logits/chosen": -0.7044095993041992,
      "logits/rejected": -0.7011440992355347,
      "logps/chosen": -394.7225341796875,
      "logps/rejected": -418.9303283691406,
      "loss": 0.6385,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -1.2195916175842285,
      "rewards/margins": 0.20536328852176666,
      "rewards/rejected": -1.424954891204834,
      "step": 226
    },
    {
      "epoch": 0.4852371409485638,
      "grad_norm": 11.00631388790137,
      "learning_rate": 6.112604669781572e-07,
      "logits/chosen": -0.735901951789856,
      "logits/rejected": -0.6977694034576416,
      "logps/chosen": -438.9553527832031,
      "logps/rejected": -447.6878662109375,
      "loss": 0.6141,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -1.478360891342163,
      "rewards/margins": 0.119898721575737,
      "rewards/rejected": -1.5982595682144165,
      "step": 227
    },
    {
      "epoch": 0.487374749498998,
      "grad_norm": 10.507160088155747,
      "learning_rate": 6.07611166609311e-07,
      "logits/chosen": -0.7429340481758118,
      "logits/rejected": -0.7295467257499695,
      "logps/chosen": -430.9995422363281,
      "logps/rejected": -448.747314453125,
      "loss": 0.6533,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.4200453758239746,
      "rewards/margins": 0.17433959245681763,
      "rewards/rejected": -1.594385027885437,
      "step": 228
    },
    {
      "epoch": 0.4895123580494322,
      "grad_norm": 8.307584591306474,
      "learning_rate": 6.039558454088795e-07,
      "logits/chosen": -0.6406713128089905,
      "logits/rejected": -0.6399562358856201,
      "logps/chosen": -332.7983703613281,
      "logps/rejected": -353.19384765625,
      "loss": 0.5913,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.1042307615280151,
      "rewards/margins": 0.19572903215885162,
      "rewards/rejected": -1.2999597787857056,
      "step": 229
    },
    {
      "epoch": 0.4916499665998664,
      "grad_norm": 11.994876856372567,
      "learning_rate": 6.002947078916364e-07,
      "logits/chosen": -0.6426191926002502,
      "logits/rejected": -0.6602756977081299,
      "logps/chosen": -344.1719665527344,
      "logps/rejected": -356.783935546875,
      "loss": 0.69,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -1.2262554168701172,
      "rewards/margins": 0.10306321084499359,
      "rewards/rejected": -1.329318642616272,
      "step": 230
    },
    {
      "epoch": 0.4937875751503006,
      "grad_norm": 10.289938408873015,
      "learning_rate": 5.966279588977766e-07,
      "logits/chosen": -0.7598620653152466,
      "logits/rejected": -0.7735162377357483,
      "logps/chosen": -382.27630615234375,
      "logps/rejected": -393.7611083984375,
      "loss": 0.6243,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.1877317428588867,
      "rewards/margins": 0.17938965559005737,
      "rewards/rejected": -1.3671213388442993,
      "step": 231
    },
    {
      "epoch": 0.4959251837007348,
      "grad_norm": 10.32285872025184,
      "learning_rate": 5.929558035814574e-07,
      "logits/chosen": -0.5800771713256836,
      "logits/rejected": -0.5892568826675415,
      "logps/chosen": -364.911376953125,
      "logps/rejected": -363.5468444824219,
      "loss": 0.6196,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.3333511352539062,
      "rewards/margins": 0.1056426540017128,
      "rewards/rejected": -1.4389936923980713,
      "step": 232
    },
    {
      "epoch": 0.498062792251169,
      "grad_norm": 10.3934909690253,
      "learning_rate": 5.892784473993183e-07,
      "logits/chosen": -0.6197159290313721,
      "logits/rejected": -0.6411285400390625,
      "logps/chosen": -372.03424072265625,
      "logps/rejected": -401.731201171875,
      "loss": 0.5626,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.235286831855774,
      "rewards/margins": 0.3155067563056946,
      "rewards/rejected": -1.5507938861846924,
      "step": 233
    },
    {
      "epoch": 0.5002004008016032,
      "grad_norm": 10.257979100996899,
      "learning_rate": 5.855960960989876e-07,
      "logits/chosen": -0.7090120911598206,
      "logits/rejected": -0.6980421543121338,
      "logps/chosen": -328.9789123535156,
      "logps/rejected": -349.19036865234375,
      "loss": 0.6148,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.2482969760894775,
      "rewards/margins": 0.14759615063667297,
      "rewards/rejected": -1.3958930969238281,
      "step": 234
    },
    {
      "epoch": 0.5023380093520374,
      "grad_norm": 8.317098893301642,
      "learning_rate": 5.819089557075688e-07,
      "logits/chosen": -0.7996770739555359,
      "logits/rejected": -0.7929503917694092,
      "logps/chosen": -331.7429504394531,
      "logps/rejected": -369.83746337890625,
      "loss": 0.6066,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.9831193089485168,
      "rewards/margins": 0.4169498383998871,
      "rewards/rejected": -1.400068998336792,
      "step": 235
    },
    {
      "epoch": 0.5044756179024716,
      "grad_norm": 10.217065084123991,
      "learning_rate": 5.782172325201155e-07,
      "logits/chosen": -0.6208564043045044,
      "logits/rejected": -0.635725200176239,
      "logps/chosen": -344.1796875,
      "logps/rejected": -389.52923583984375,
      "loss": 0.6368,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.1277637481689453,
      "rewards/margins": 0.37036919593811035,
      "rewards/rejected": -1.4981330633163452,
      "step": 236
    },
    {
      "epoch": 0.5066132264529059,
      "grad_norm": 10.269160973282458,
      "learning_rate": 5.745211330880872e-07,
      "logits/chosen": -0.7708931565284729,
      "logits/rejected": -0.76704341173172,
      "logps/chosen": -433.10064697265625,
      "logps/rejected": -450.0901184082031,
      "loss": 0.6314,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.3207013607025146,
      "rewards/margins": 0.2793017327785492,
      "rewards/rejected": -1.6000031232833862,
      "step": 237
    },
    {
      "epoch": 0.5087508350033401,
      "grad_norm": 10.399405697134318,
      "learning_rate": 5.708208642077945e-07,
      "logits/chosen": -0.6624871492385864,
      "logits/rejected": -0.6546816825866699,
      "logps/chosen": -333.7100524902344,
      "logps/rejected": -369.9173278808594,
      "loss": 0.6294,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.1885484457015991,
      "rewards/margins": 0.3089646100997925,
      "rewards/rejected": -1.4975128173828125,
      "step": 238
    },
    {
      "epoch": 0.5108884435537742,
      "grad_norm": 9.80964346078248,
      "learning_rate": 5.671166329088277e-07,
      "logits/chosen": -0.7182386517524719,
      "logits/rejected": -0.7258840203285217,
      "logps/chosen": -356.9850769042969,
      "logps/rejected": -380.86285400390625,
      "loss": 0.6235,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.3426018953323364,
      "rewards/margins": 0.24537137150764465,
      "rewards/rejected": -1.5879731178283691,
      "step": 239
    },
    {
      "epoch": 0.5130260521042084,
      "grad_norm": 10.018454517912645,
      "learning_rate": 5.634086464424742e-07,
      "logits/chosen": -0.6738543510437012,
      "logits/rejected": -0.6593906283378601,
      "logps/chosen": -359.072021484375,
      "logps/rejected": -400.2255554199219,
      "loss": 0.6674,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.3493218421936035,
      "rewards/margins": 0.24295195937156677,
      "rewards/rejected": -1.5922737121582031,
      "step": 240
    },
    {
      "epoch": 0.5151636606546426,
      "grad_norm": 9.883809912496002,
      "learning_rate": 5.596971122701221e-07,
      "logits/chosen": -0.8064689636230469,
      "logits/rejected": -0.777323305606842,
      "logps/chosen": -383.2707214355469,
      "logps/rejected": -394.1632995605469,
      "loss": 0.6133,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.2935426235198975,
      "rewards/margins": 0.17417016625404358,
      "rewards/rejected": -1.4677127599716187,
      "step": 241
    },
    {
      "epoch": 0.5173012692050768,
      "grad_norm": 9.835505308989157,
      "learning_rate": 5.559822380516539e-07,
      "logits/chosen": -0.74181067943573,
      "logits/rejected": -0.76103276014328,
      "logps/chosen": -413.28607177734375,
      "logps/rejected": -432.421142578125,
      "loss": 0.6135,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.6156772375106812,
      "rewards/margins": 0.052678730338811874,
      "rewards/rejected": -1.668355941772461,
      "step": 242
    },
    {
      "epoch": 0.519438877755511,
      "grad_norm": 10.044057697511136,
      "learning_rate": 5.522642316338268e-07,
      "logits/chosen": -0.7109071016311646,
      "logits/rejected": -0.738073468208313,
      "logps/chosen": -371.0440673828125,
      "logps/rejected": -417.84588623046875,
      "loss": 0.6108,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.2593053579330444,
      "rewards/margins": 0.29793858528137207,
      "rewards/rejected": -1.557244062423706,
      "step": 243
    },
    {
      "epoch": 0.5215764863059452,
      "grad_norm": 9.78032272573038,
      "learning_rate": 5.48543301038644e-07,
      "logits/chosen": -0.8035364747047424,
      "logits/rejected": -0.817245364189148,
      "logps/chosen": -408.1662292480469,
      "logps/rejected": -431.6890869140625,
      "loss": 0.657,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.3148820400238037,
      "rewards/margins": 0.27137643098831177,
      "rewards/rejected": -1.5862585306167603,
      "step": 244
    },
    {
      "epoch": 0.5237140948563794,
      "grad_norm": 11.286066879084709,
      "learning_rate": 5.448196544517167e-07,
      "logits/chosen": -0.8000929355621338,
      "logits/rejected": -0.7960721254348755,
      "logps/chosen": -348.828369140625,
      "logps/rejected": -370.3882751464844,
      "loss": 0.6377,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.3299049139022827,
      "rewards/margins": 0.21843267977237701,
      "rewards/rejected": -1.5483375787734985,
      "step": 245
    },
    {
      "epoch": 0.5258517034068136,
      "grad_norm": 9.544361896918447,
      "learning_rate": 5.410935002106152e-07,
      "logits/chosen": -0.7660020589828491,
      "logits/rejected": -0.7475563883781433,
      "logps/chosen": -402.910400390625,
      "logps/rejected": -406.4446105957031,
      "loss": 0.6237,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.283268690109253,
      "rewards/margins": 0.24972115457057953,
      "rewards/rejected": -1.5329898595809937,
      "step": 246
    },
    {
      "epoch": 0.5279893119572479,
      "grad_norm": 9.1575605917451,
      "learning_rate": 5.373650467932121e-07,
      "logits/chosen": -0.741169273853302,
      "logits/rejected": -0.7101236581802368,
      "logps/chosen": -353.3587951660156,
      "logps/rejected": -394.3509521484375,
      "loss": 0.5927,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.2977474927902222,
      "rewards/margins": 0.445009708404541,
      "rewards/rejected": -1.7427570819854736,
      "step": 247
    },
    {
      "epoch": 0.5301269205076821,
      "grad_norm": 10.605879178884328,
      "learning_rate": 5.336345028060199e-07,
      "logits/chosen": -0.735455334186554,
      "logits/rejected": -0.7146904468536377,
      "logps/chosen": -415.8868103027344,
      "logps/rejected": -471.6510925292969,
      "loss": 0.6285,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.4680719375610352,
      "rewards/margins": 0.37900200486183167,
      "rewards/rejected": -1.8470739126205444,
      "step": 248
    },
    {
      "epoch": 0.5322645290581163,
      "grad_norm": 9.468418276322426,
      "learning_rate": 5.299020769725171e-07,
      "logits/chosen": -0.6703728437423706,
      "logits/rejected": -0.6554571986198425,
      "logps/chosen": -414.7881164550781,
      "logps/rejected": -444.9212646484375,
      "loss": 0.6305,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.5948419570922852,
      "rewards/margins": 0.24465849995613098,
      "rewards/rejected": -1.8395004272460938,
      "step": 249
    },
    {
      "epoch": 0.5344021376085505,
      "grad_norm": 10.105402066971774,
      "learning_rate": 5.26167978121472e-07,
      "logits/chosen": -0.6142255663871765,
      "logits/rejected": -0.5848169922828674,
      "logps/chosen": -390.851806640625,
      "logps/rejected": -430.1876220703125,
      "loss": 0.6119,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.5544801950454712,
      "rewards/margins": 0.30869632959365845,
      "rewards/rejected": -1.8631765842437744,
      "step": 250
    },
    {
      "epoch": 0.5365397461589846,
      "grad_norm": 9.810217626805535,
      "learning_rate": 5.224324151752575e-07,
      "logits/chosen": -0.6183363795280457,
      "logits/rejected": -0.6150676608085632,
      "logps/chosen": -367.5179443359375,
      "logps/rejected": -416.97332763671875,
      "loss": 0.6083,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.2182056903839111,
      "rewards/margins": 0.5702115893363953,
      "rewards/rejected": -1.7884173393249512,
      "step": 251
    },
    {
      "epoch": 0.5386773547094188,
      "grad_norm": 11.63997005510131,
      "learning_rate": 5.18695597138163e-07,
      "logits/chosen": -0.7786095142364502,
      "logits/rejected": -0.7649445533752441,
      "logps/chosen": -406.415771484375,
      "logps/rejected": -438.0752868652344,
      "loss": 0.6444,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.4087908267974854,
      "rewards/margins": 0.3740866780281067,
      "rewards/rejected": -1.7828774452209473,
      "step": 252
    },
    {
      "epoch": 0.540814963259853,
      "grad_norm": 8.971335597918381,
      "learning_rate": 5.149577330846992e-07,
      "logits/chosen": -0.722287118434906,
      "logits/rejected": -0.7298377752304077,
      "logps/chosen": -385.11602783203125,
      "logps/rejected": -462.1266784667969,
      "loss": 0.5901,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.3030569553375244,
      "rewards/margins": 0.4734255373477936,
      "rewards/rejected": -1.7764827013015747,
      "step": 253
    },
    {
      "epoch": 0.5429525718102872,
      "grad_norm": 10.226248494849832,
      "learning_rate": 5.112190321479025e-07,
      "logits/chosen": -0.7946709990501404,
      "logits/rejected": -0.7953794598579407,
      "logps/chosen": -365.50604248046875,
      "logps/rejected": -393.0849914550781,
      "loss": 0.6099,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.3220914602279663,
      "rewards/margins": 0.16996119916439056,
      "rewards/rejected": -1.492052674293518,
      "step": 254
    },
    {
      "epoch": 0.5450901803607214,
      "grad_norm": 9.70395445393845,
      "learning_rate": 5.074797035076318e-07,
      "logits/chosen": -0.8279726505279541,
      "logits/rejected": -0.8029213547706604,
      "logps/chosen": -363.36956787109375,
      "logps/rejected": -353.39300537109375,
      "loss": 0.5921,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -1.4433786869049072,
      "rewards/margins": 0.08160518109798431,
      "rewards/rejected": -1.5249840021133423,
      "step": 255
    },
    {
      "epoch": 0.5472277889111556,
      "grad_norm": 10.09145149251664,
      "learning_rate": 5.037399563788664e-07,
      "logits/chosen": -0.6333373785018921,
      "logits/rejected": -0.6277045011520386,
      "logps/chosen": -363.3057861328125,
      "logps/rejected": -414.02874755859375,
      "loss": 0.5775,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.2467057704925537,
      "rewards/margins": 0.4376518726348877,
      "rewards/rejected": -1.6843575239181519,
      "step": 256
    },
    {
      "epoch": 0.5493653974615899,
      "grad_norm": 10.227202697175395,
      "learning_rate": 5e-07,
      "logits/chosen": -0.7193889021873474,
      "logits/rejected": -0.7205474376678467,
      "logps/chosen": -384.7895812988281,
      "logps/rejected": -409.3086242675781,
      "loss": 0.6474,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.4086096286773682,
      "rewards/margins": 0.14859981834888458,
      "rewards/rejected": -1.5572093725204468,
      "step": 257
    },
    {
      "epoch": 0.5515030060120241,
      "grad_norm": 10.455321411037115,
      "learning_rate": 4.962600436211335e-07,
      "logits/chosen": -0.7665015459060669,
      "logits/rejected": -0.751805305480957,
      "logps/chosen": -353.6752624511719,
      "logps/rejected": -387.00494384765625,
      "loss": 0.6357,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.2000305652618408,
      "rewards/margins": 0.3206770420074463,
      "rewards/rejected": -1.5207074880599976,
      "step": 258
    },
    {
      "epoch": 0.5536406145624583,
      "grad_norm": 10.67800131716867,
      "learning_rate": 4.925202964923683e-07,
      "logits/chosen": -0.67658931016922,
      "logits/rejected": -0.6737143397331238,
      "logps/chosen": -357.2424011230469,
      "logps/rejected": -380.38238525390625,
      "loss": 0.5989,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.1178100109100342,
      "rewards/margins": 0.21349495649337769,
      "rewards/rejected": -1.3313050270080566,
      "step": 259
    },
    {
      "epoch": 0.5557782231128925,
      "grad_norm": 10.755754910243839,
      "learning_rate": 4.887809678520975e-07,
      "logits/chosen": -0.7121912240982056,
      "logits/rejected": -0.6941719055175781,
      "logps/chosen": -311.152587890625,
      "logps/rejected": -341.55682373046875,
      "loss": 0.579,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.0979379415512085,
      "rewards/margins": 0.32470834255218506,
      "rewards/rejected": -1.4226462841033936,
      "step": 260
    },
    {
      "epoch": 0.5579158316633267,
      "grad_norm": 10.029694987313983,
      "learning_rate": 4.850422669153009e-07,
      "logits/chosen": -0.7704156041145325,
      "logits/rejected": -0.7731869220733643,
      "logps/chosen": -433.1751403808594,
      "logps/rejected": -475.2624206542969,
      "loss": 0.6159,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.5628148317337036,
      "rewards/margins": 0.27969640493392944,
      "rewards/rejected": -1.842511534690857,
      "step": 261
    },
    {
      "epoch": 0.5600534402137608,
      "grad_norm": 9.985077304371496,
      "learning_rate": 4.813044028618372e-07,
      "logits/chosen": -0.655546247959137,
      "logits/rejected": -0.5991637110710144,
      "logps/chosen": -311.8508605957031,
      "logps/rejected": -352.53912353515625,
      "loss": 0.6149,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.1894161701202393,
      "rewards/margins": 0.4629126489162445,
      "rewards/rejected": -1.6523289680480957,
      "step": 262
    },
    {
      "epoch": 0.562191048764195,
      "grad_norm": 11.42063256185086,
      "learning_rate": 4.775675848247427e-07,
      "logits/chosen": -0.7124533653259277,
      "logits/rejected": -0.7007814645767212,
      "logps/chosen": -349.7750549316406,
      "logps/rejected": -395.9293518066406,
      "loss": 0.606,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.2669329643249512,
      "rewards/margins": 0.35066768527030945,
      "rewards/rejected": -1.617600679397583,
      "step": 263
    },
    {
      "epoch": 0.5643286573146292,
      "grad_norm": 10.025460802753425,
      "learning_rate": 4.7383202187852804e-07,
      "logits/chosen": -0.6652883887290955,
      "logits/rejected": -0.6626304388046265,
      "logps/chosen": -350.379150390625,
      "logps/rejected": -388.03955078125,
      "loss": 0.5997,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.4017623662948608,
      "rewards/margins": 0.309231698513031,
      "rewards/rejected": -1.710994005203247,
      "step": 264
    },
    {
      "epoch": 0.5664662658650634,
      "grad_norm": 10.653930828086093,
      "learning_rate": 4.700979230274829e-07,
      "logits/chosen": -0.7248793244361877,
      "logits/rejected": -0.750960648059845,
      "logps/chosen": -394.911865234375,
      "logps/rejected": -443.53643798828125,
      "loss": 0.6179,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.381069540977478,
      "rewards/margins": 0.36748361587524414,
      "rewards/rejected": -1.7485532760620117,
      "step": 265
    },
    {
      "epoch": 0.5686038744154976,
      "grad_norm": 9.87511145308802,
      "learning_rate": 4.6636549719398016e-07,
      "logits/chosen": -0.7590113878250122,
      "logits/rejected": -0.7530328035354614,
      "logps/chosen": -422.1754150390625,
      "logps/rejected": -463.882080078125,
      "loss": 0.5906,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.4037176370620728,
      "rewards/margins": 0.3301146626472473,
      "rewards/rejected": -1.7338322401046753,
      "step": 266
    },
    {
      "epoch": 0.5707414829659319,
      "grad_norm": 10.40705399730886,
      "learning_rate": 4.626349532067879e-07,
      "logits/chosen": -0.5113621950149536,
      "logits/rejected": -0.4636048972606659,
      "logps/chosen": -402.9996337890625,
      "logps/rejected": -432.8628845214844,
      "loss": 0.6439,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.4809210300445557,
      "rewards/margins": 0.3719174861907959,
      "rewards/rejected": -1.8528385162353516,
      "step": 267
    },
    {
      "epoch": 0.5728790915163661,
      "grad_norm": 9.883415102033252,
      "learning_rate": 4.5890649978938487e-07,
      "logits/chosen": -0.7086624503135681,
      "logits/rejected": -0.6735981702804565,
      "logps/chosen": -396.3412170410156,
      "logps/rejected": -393.7690734863281,
      "loss": 0.5721,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.459097146987915,
      "rewards/margins": 0.10202471911907196,
      "rewards/rejected": -1.561121940612793,
      "step": 268
    },
    {
      "epoch": 0.5750167000668003,
      "grad_norm": 11.674476580668774,
      "learning_rate": 4.5518034554828327e-07,
      "logits/chosen": -0.7449507117271423,
      "logits/rejected": -0.722856879234314,
      "logps/chosen": -426.8054504394531,
      "logps/rejected": -444.621337890625,
      "loss": 0.6042,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.3702492713928223,
      "rewards/margins": 0.2847437858581543,
      "rewards/rejected": -1.6549930572509766,
      "step": 269
    },
    {
      "epoch": 0.5771543086172345,
      "grad_norm": 10.79085847307073,
      "learning_rate": 4.514566989613559e-07,
      "logits/chosen": -0.7816205024719238,
      "logits/rejected": -0.7831264734268188,
      "logps/chosen": -380.7841796875,
      "logps/rejected": -405.67108154296875,
      "loss": 0.6769,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.4601352214813232,
      "rewards/margins": 0.22311216592788696,
      "rewards/rejected": -1.6832473278045654,
      "step": 270
    },
    {
      "epoch": 0.5792919171676687,
      "grad_norm": 13.754123888989874,
      "learning_rate": 4.477357683661733e-07,
      "logits/chosen": -0.6621173620223999,
      "logits/rejected": -0.6234359741210938,
      "logps/chosen": -376.8826599121094,
      "logps/rejected": -421.74981689453125,
      "loss": 0.6674,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.3359074592590332,
      "rewards/margins": 0.37606099247932434,
      "rewards/rejected": -1.7119684219360352,
      "step": 271
    },
    {
      "epoch": 0.5814295257181029,
      "grad_norm": 10.684496603394274,
      "learning_rate": 4.4401776194834603e-07,
      "logits/chosen": -0.7525122761726379,
      "logits/rejected": -0.6963589787483215,
      "logps/chosen": -329.6082458496094,
      "logps/rejected": -376.0239562988281,
      "loss": 0.6287,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.1713266372680664,
      "rewards/margins": 0.28129494190216064,
      "rewards/rejected": -1.452621579170227,
      "step": 272
    },
    {
      "epoch": 0.5835671342685371,
      "grad_norm": 9.352339379386558,
      "learning_rate": 4.403028877298779e-07,
      "logits/chosen": -0.6548051238059998,
      "logits/rejected": -0.632011890411377,
      "logps/chosen": -384.2966003417969,
      "logps/rejected": -421.78839111328125,
      "loss": 0.622,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.369025707244873,
      "rewards/margins": 0.33843424916267395,
      "rewards/rejected": -1.707459807395935,
      "step": 273
    },
    {
      "epoch": 0.5857047428189712,
      "grad_norm": 9.078233343454654,
      "learning_rate": 4.3659135355752593e-07,
      "logits/chosen": -0.6783146858215332,
      "logits/rejected": -0.6960130929946899,
      "logps/chosen": -353.8924560546875,
      "logps/rejected": -399.84918212890625,
      "loss": 0.5956,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.3400187492370605,
      "rewards/margins": 0.32464563846588135,
      "rewards/rejected": -1.664664387702942,
      "step": 274
    },
    {
      "epoch": 0.5878423513694054,
      "grad_norm": 15.480458345502447,
      "learning_rate": 4.328833670911724e-07,
      "logits/chosen": -0.651485025882721,
      "logits/rejected": -0.6426280736923218,
      "logps/chosen": -407.6331481933594,
      "logps/rejected": -407.97271728515625,
      "loss": 0.6394,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.497727394104004,
      "rewards/margins": 0.0166710764169693,
      "rewards/rejected": -1.514398455619812,
      "step": 275
    },
    {
      "epoch": 0.5899799599198396,
      "grad_norm": 9.317803722726895,
      "learning_rate": 4.2917913579220553e-07,
      "logits/chosen": -0.7354484796524048,
      "logits/rejected": -0.7279876470565796,
      "logps/chosen": -336.7724914550781,
      "logps/rejected": -337.7842712402344,
      "loss": 0.6297,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.3154979944229126,
      "rewards/margins": 0.18782049417495728,
      "rewards/rejected": -1.5033185482025146,
      "step": 276
    },
    {
      "epoch": 0.5921175684702739,
      "grad_norm": 10.981393496040226,
      "learning_rate": 4.254788669119127e-07,
      "logits/chosen": -0.6517477631568909,
      "logits/rejected": -0.6439751386642456,
      "logps/chosen": -398.1854553222656,
      "logps/rejected": -394.73992919921875,
      "loss": 0.6151,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.5254887342453003,
      "rewards/margins": 0.09052658081054688,
      "rewards/rejected": -1.6160151958465576,
      "step": 277
    },
    {
      "epoch": 0.5942551770207081,
      "grad_norm": 9.363953745062531,
      "learning_rate": 4.2178276747988444e-07,
      "logits/chosen": -0.7151267528533936,
      "logits/rejected": -0.6989988088607788,
      "logps/chosen": -399.211669921875,
      "logps/rejected": -472.8134765625,
      "loss": 0.6081,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.5025238990783691,
      "rewards/margins": 0.6458090543746948,
      "rewards/rejected": -2.1483330726623535,
      "step": 278
    },
    {
      "epoch": 0.5963927855711423,
      "grad_norm": 10.996768453375289,
      "learning_rate": 4.180910442924311e-07,
      "logits/chosen": -0.6743846535682678,
      "logits/rejected": -0.6869890093803406,
      "logps/chosen": -349.3891296386719,
      "logps/rejected": -385.591064453125,
      "loss": 0.6559,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.1990691423416138,
      "rewards/margins": 0.24665698409080505,
      "rewards/rejected": -1.4457261562347412,
      "step": 279
    },
    {
      "epoch": 0.5985303941215765,
      "grad_norm": 12.076546659241137,
      "learning_rate": 4.144039039010124e-07,
      "logits/chosen": -0.7634164094924927,
      "logits/rejected": -0.7913932204246521,
      "logps/chosen": -363.1887512207031,
      "logps/rejected": -416.5007019042969,
      "loss": 0.599,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.0668609142303467,
      "rewards/margins": 0.44077447056770325,
      "rewards/rejected": -1.507635474205017,
      "step": 280
    },
    {
      "epoch": 0.6006680026720107,
      "grad_norm": 11.14137973799164,
      "learning_rate": 4.107215526006817e-07,
      "logits/chosen": -0.7002226114273071,
      "logits/rejected": -0.7134915590286255,
      "logps/chosen": -370.8570556640625,
      "logps/rejected": -408.5722961425781,
      "loss": 0.664,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.3522167205810547,
      "rewards/margins": 0.2257714569568634,
      "rewards/rejected": -1.5779881477355957,
      "step": 281
    },
    {
      "epoch": 0.6028056112224449,
      "grad_norm": 10.43225088057876,
      "learning_rate": 4.070441964185427e-07,
      "logits/chosen": -0.6937713623046875,
      "logits/rejected": -0.6445334553718567,
      "logps/chosen": -320.21636962890625,
      "logps/rejected": -386.27337646484375,
      "loss": 0.6365,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.0563011169433594,
      "rewards/margins": 0.5464246869087219,
      "rewards/rejected": -1.6027257442474365,
      "step": 282
    },
    {
      "epoch": 0.6049432197728791,
      "grad_norm": 9.579570581028333,
      "learning_rate": 4.0337204110222347e-07,
      "logits/chosen": -0.7348592281341553,
      "logits/rejected": -0.7190099954605103,
      "logps/chosen": -368.09918212890625,
      "logps/rejected": -410.2267761230469,
      "loss": 0.6029,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.1717023849487305,
      "rewards/margins": 0.4082415699958801,
      "rewards/rejected": -1.5799440145492554,
      "step": 283
    },
    {
      "epoch": 0.6070808283233133,
      "grad_norm": 10.220765953116597,
      "learning_rate": 3.997052921083636e-07,
      "logits/chosen": -0.6168830394744873,
      "logits/rejected": -0.6260079145431519,
      "logps/chosen": -374.4775695800781,
      "logps/rejected": -405.28546142578125,
      "loss": 0.6056,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.2549736499786377,
      "rewards/margins": 0.39645275473594666,
      "rewards/rejected": -1.6514263153076172,
      "step": 284
    },
    {
      "epoch": 0.6092184368737475,
      "grad_norm": 11.754142515548534,
      "learning_rate": 3.960441545911204e-07,
      "logits/chosen": -0.7724018096923828,
      "logits/rejected": -0.8003143668174744,
      "logps/chosen": -411.28765869140625,
      "logps/rejected": -446.0718688964844,
      "loss": 0.6254,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.3750414848327637,
      "rewards/margins": 0.19460612535476685,
      "rewards/rejected": -1.5696475505828857,
      "step": 285
    },
    {
      "epoch": 0.6113560454241816,
      "grad_norm": 11.71195693335506,
      "learning_rate": 3.92388833390689e-07,
      "logits/chosen": -0.6072220206260681,
      "logits/rejected": -0.5882732272148132,
      "logps/chosen": -362.8934020996094,
      "logps/rejected": -384.33685302734375,
      "loss": 0.6421,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.4378963708877563,
      "rewards/margins": 0.3072332739830017,
      "rewards/rejected": -1.7451298236846924,
      "step": 286
    },
    {
      "epoch": 0.6134936539746159,
      "grad_norm": 10.423314767059496,
      "learning_rate": 3.8873953302184283e-07,
      "logits/chosen": -0.6478594541549683,
      "logits/rejected": -0.6148996949195862,
      "logps/chosen": -402.24993896484375,
      "logps/rejected": -419.41510009765625,
      "loss": 0.6184,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.573075532913208,
      "rewards/margins": 0.27030453085899353,
      "rewards/rejected": -1.8433799743652344,
      "step": 287
    },
    {
      "epoch": 0.6156312625250501,
      "grad_norm": 11.589829757981947,
      "learning_rate": 3.8509645766249034e-07,
      "logits/chosen": -0.7512708902359009,
      "logits/rejected": -0.7593178749084473,
      "logps/chosen": -430.9858093261719,
      "logps/rejected": -473.86578369140625,
      "loss": 0.6066,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.5662776231765747,
      "rewards/margins": 0.3962094187736511,
      "rewards/rejected": -1.9624871015548706,
      "step": 288
    },
    {
      "epoch": 0.6177688710754843,
      "grad_norm": 38.79630588602357,
      "learning_rate": 3.814598111422513e-07,
      "logits/chosen": -0.7107813358306885,
      "logits/rejected": -0.7043961882591248,
      "logps/chosen": -359.62713623046875,
      "logps/rejected": -373.19805908203125,
      "loss": 0.6213,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -1.3326873779296875,
      "rewards/margins": 0.10174018889665604,
      "rewards/rejected": -1.4344274997711182,
      "step": 289
    },
    {
      "epoch": 0.6199064796259185,
      "grad_norm": 9.198178073702046,
      "learning_rate": 3.778297969310529e-07,
      "logits/chosen": -0.7122032046318054,
      "logits/rejected": -0.7226367592811584,
      "logps/chosen": -360.8456726074219,
      "logps/rejected": -395.7742614746094,
      "loss": 0.6057,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.3359217643737793,
      "rewards/margins": 0.3005616068840027,
      "rewards/rejected": -1.6364833116531372,
      "step": 290
    },
    {
      "epoch": 0.6220440881763527,
      "grad_norm": 11.585726416356431,
      "learning_rate": 3.742066181277457e-07,
      "logits/chosen": -0.6904798150062561,
      "logits/rejected": -0.6984922885894775,
      "logps/chosen": -385.777587890625,
      "logps/rejected": -417.1224670410156,
      "loss": 0.602,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.4644272327423096,
      "rewards/margins": 0.26233839988708496,
      "rewards/rejected": -1.7267656326293945,
      "step": 291
    },
    {
      "epoch": 0.6241816967267869,
      "grad_norm": 10.98477533754328,
      "learning_rate": 3.7059047744873955e-07,
      "logits/chosen": -0.6717097759246826,
      "logits/rejected": -0.6137974262237549,
      "logps/chosen": -388.8412780761719,
      "logps/rejected": -408.81964111328125,
      "loss": 0.6424,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.4904993772506714,
      "rewards/margins": 0.2106323540210724,
      "rewards/rejected": -1.701131820678711,
      "step": 292
    },
    {
      "epoch": 0.6263193052772211,
      "grad_norm": 11.098357379348672,
      "learning_rate": 3.669815772166625e-07,
      "logits/chosen": -0.7643608450889587,
      "logits/rejected": -0.7616855502128601,
      "logps/chosen": -399.7235412597656,
      "logps/rejected": -444.3169250488281,
      "loss": 0.5882,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.1846121549606323,
      "rewards/margins": 0.3367740213871002,
      "rewards/rejected": -1.5213862657546997,
      "step": 293
    },
    {
      "epoch": 0.6284569138276553,
      "grad_norm": 9.823709075894158,
      "learning_rate": 3.6338011934904e-07,
      "logits/chosen": -0.7340261936187744,
      "logits/rejected": -0.7253273129463196,
      "logps/chosen": -415.0310974121094,
      "logps/rejected": -479.2626953125,
      "loss": 0.5839,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.4078618288040161,
      "rewards/margins": 0.7003488540649414,
      "rewards/rejected": -2.108210802078247,
      "step": 294
    },
    {
      "epoch": 0.6305945223780896,
      "grad_norm": 10.87697682105901,
      "learning_rate": 3.5978630534699865e-07,
      "logits/chosen": -0.6595284342765808,
      "logits/rejected": -0.6863126754760742,
      "logps/chosen": -365.39013671875,
      "logps/rejected": -408.86541748046875,
      "loss": 0.652,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.497340202331543,
      "rewards/margins": 0.30657070875167847,
      "rewards/rejected": -1.803910732269287,
      "step": 295
    },
    {
      "epoch": 0.6327321309285238,
      "grad_norm": 11.045318981796374,
      "learning_rate": 3.562003362839914e-07,
      "logits/chosen": -0.7206366062164307,
      "logits/rejected": -0.7295577526092529,
      "logps/chosen": -461.62225341796875,
      "logps/rejected": -458.39703369140625,
      "loss": 0.6665,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.7048362493515015,
      "rewards/margins": 0.04338730126619339,
      "rewards/rejected": -1.7482235431671143,
      "step": 296
    },
    {
      "epoch": 0.6348697394789579,
      "grad_norm": 10.855323994177997,
      "learning_rate": 3.526224127945478e-07,
      "logits/chosen": -0.6919922828674316,
      "logits/rejected": -0.6954550743103027,
      "logps/chosen": -336.01556396484375,
      "logps/rejected": -376.9835205078125,
      "loss": 0.6407,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.3392897844314575,
      "rewards/margins": 0.2275466024875641,
      "rewards/rejected": -1.5668363571166992,
      "step": 297
    },
    {
      "epoch": 0.6370073480293921,
      "grad_norm": 9.58788965705626,
      "learning_rate": 3.49052735063049e-07,
      "logits/chosen": -0.8874866962432861,
      "logits/rejected": -0.8917239904403687,
      "logps/chosen": -403.54693603515625,
      "logps/rejected": -442.32305908203125,
      "loss": 0.5722,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -1.3754301071166992,
      "rewards/margins": 0.39617669582366943,
      "rewards/rejected": -1.771606683731079,
      "step": 298
    },
    {
      "epoch": 0.6391449565798263,
      "grad_norm": 10.56963230174736,
      "learning_rate": 3.454915028125263e-07,
      "logits/chosen": -0.6784321665763855,
      "logits/rejected": -0.6550740003585815,
      "logps/chosen": -406.8092041015625,
      "logps/rejected": -409.7593688964844,
      "loss": 0.6048,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.4954036474227905,
      "rewards/margins": 0.18573154509067535,
      "rewards/rejected": -1.6811351776123047,
      "step": 299
    },
    {
      "epoch": 0.6412825651302605,
      "grad_norm": 10.005595422402594,
      "learning_rate": 3.4193891529348795e-07,
      "logits/chosen": -0.7489890456199646,
      "logits/rejected": -0.7623311281204224,
      "logps/chosen": -440.9601135253906,
      "logps/rejected": -441.59466552734375,
      "loss": 0.6376,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.6095386743545532,
      "rewards/margins": 0.23035281896591187,
      "rewards/rejected": -1.8398916721343994,
      "step": 300
    },
    {
      "epoch": 0.6412825651302605,
      "eval_logits/chosen": -0.6758147478103638,
      "eval_logits/rejected": -0.6752761006355286,
      "eval_logps/chosen": -390.88177490234375,
      "eval_logps/rejected": -425.3858947753906,
      "eval_loss": 0.6177628040313721,
      "eval_rewards/accuracies": 0.6747967600822449,
      "eval_rewards/chosen": -1.3533374071121216,
      "eval_rewards/margins": 0.28798195719718933,
      "eval_rewards/rejected": -1.6413193941116333,
      "eval_runtime": 377.299,
      "eval_samples_per_second": 5.197,
      "eval_steps_per_second": 0.326,
      "step": 300
    },
    {
      "epoch": 0.6434201736806947,
      "grad_norm": 10.329473531690297,
      "learning_rate": 3.3839517127277004e-07,
      "logits/chosen": -0.7601391673088074,
      "logits/rejected": -0.7844873070716858,
      "logps/chosen": -393.47540283203125,
      "logps/rejected": -435.7286071777344,
      "loss": 0.6387,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.259373426437378,
      "rewards/margins": 0.349065899848938,
      "rewards/rejected": -1.608439326286316,
      "step": 301
    },
    {
      "epoch": 0.6455577822311289,
      "grad_norm": 8.767557926350584,
      "learning_rate": 3.348604690224166e-07,
      "logits/chosen": -0.8301680088043213,
      "logits/rejected": -0.8203250169754028,
      "logps/chosen": -425.7115478515625,
      "logps/rejected": -468.8160095214844,
      "loss": 0.6113,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.3414942026138306,
      "rewards/margins": 0.44216763973236084,
      "rewards/rejected": -1.7836618423461914,
      "step": 302
    },
    {
      "epoch": 0.6476953907815631,
      "grad_norm": 11.252600228651138,
      "learning_rate": 3.31335006308585e-07,
      "logits/chosen": -0.7533825635910034,
      "logits/rejected": -0.732757031917572,
      "logps/chosen": -393.85040283203125,
      "logps/rejected": -415.14080810546875,
      "loss": 0.6301,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.3789258003234863,
      "rewards/margins": 0.23148328065872192,
      "rewards/rejected": -1.6104090213775635,
      "step": 303
    },
    {
      "epoch": 0.6498329993319973,
      "grad_norm": 10.257975436900558,
      "learning_rate": 3.2781898038048237e-07,
      "logits/chosen": -0.6510428786277771,
      "logits/rejected": -0.6685248613357544,
      "logps/chosen": -390.3652038574219,
      "logps/rejected": -393.8785400390625,
      "loss": 0.6683,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.5787415504455566,
      "rewards/margins": 0.11641066521406174,
      "rewards/rejected": -1.6951522827148438,
      "step": 304
    },
    {
      "epoch": 0.6519706078824316,
      "grad_norm": 9.860462354210497,
      "learning_rate": 3.243125879593286e-07,
      "logits/chosen": -0.7366013526916504,
      "logits/rejected": -0.7264673709869385,
      "logps/chosen": -361.6595458984375,
      "logps/rejected": -408.7252197265625,
      "loss": 0.6058,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.1662776470184326,
      "rewards/margins": 0.39646124839782715,
      "rewards/rejected": -1.5627388954162598,
      "step": 305
    },
    {
      "epoch": 0.6541082164328658,
      "grad_norm": 11.932221586274338,
      "learning_rate": 3.2081602522734985e-07,
      "logits/chosen": -0.7773129343986511,
      "logits/rejected": -0.7762659788131714,
      "logps/chosen": -384.003662109375,
      "logps/rejected": -423.2783203125,
      "loss": 0.5892,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.3898005485534668,
      "rewards/margins": 0.3622281551361084,
      "rewards/rejected": -1.7520288228988647,
      "step": 306
    },
    {
      "epoch": 0.6562458249833,
      "grad_norm": 9.369038313539917,
      "learning_rate": 3.173294878168025e-07,
      "logits/chosen": -0.6643047332763672,
      "logits/rejected": -0.6601549386978149,
      "logps/chosen": -372.4691162109375,
      "logps/rejected": -406.27996826171875,
      "loss": 0.6158,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.4243800640106201,
      "rewards/margins": 0.29933756589889526,
      "rewards/rejected": -1.7237175703048706,
      "step": 307
    },
    {
      "epoch": 0.6583834335337342,
      "grad_norm": 10.15702054511366,
      "learning_rate": 3.138531707990274e-07,
      "logits/chosen": -0.6945326328277588,
      "logits/rejected": -0.6813417673110962,
      "logps/chosen": -367.9193115234375,
      "logps/rejected": -422.1386413574219,
      "loss": 0.5835,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.1640138626098633,
      "rewards/margins": 0.5344864726066589,
      "rewards/rejected": -1.6985002756118774,
      "step": 308
    },
    {
      "epoch": 0.6605210420841683,
      "grad_norm": 10.774899794292791,
      "learning_rate": 3.1038726867353583e-07,
      "logits/chosen": -0.678726315498352,
      "logits/rejected": -0.706427276134491,
      "logps/chosen": -402.2789001464844,
      "logps/rejected": -475.16436767578125,
      "loss": 0.5877,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.296879529953003,
      "rewards/margins": 0.6074644327163696,
      "rewards/rejected": -1.904344081878662,
      "step": 309
    },
    {
      "epoch": 0.6626586506346025,
      "grad_norm": 9.326333800621224,
      "learning_rate": 3.069319753571269e-07,
      "logits/chosen": -0.7166895866394043,
      "logits/rejected": -0.7176540493965149,
      "logps/chosen": -386.4005432128906,
      "logps/rejected": -395.38970947265625,
      "loss": 0.6111,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -1.5514951944351196,
      "rewards/margins": 0.11902564764022827,
      "rewards/rejected": -1.6705207824707031,
      "step": 310
    },
    {
      "epoch": 0.6647962591850367,
      "grad_norm": 11.49416505541279,
      "learning_rate": 3.034874841730382e-07,
      "logits/chosen": -0.7580830454826355,
      "logits/rejected": -0.7336598634719849,
      "logps/chosen": -402.9891052246094,
      "logps/rejected": -430.2671813964844,
      "loss": 0.6368,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.3294634819030762,
      "rewards/margins": 0.3222670555114746,
      "rewards/rejected": -1.6517305374145508,
      "step": 311
    },
    {
      "epoch": 0.6669338677354709,
      "grad_norm": 10.887373926899288,
      "learning_rate": 3.000539878401296e-07,
      "logits/chosen": -0.6197298765182495,
      "logits/rejected": -0.5989848375320435,
      "logps/chosen": -391.74951171875,
      "logps/rejected": -449.1798400878906,
      "loss": 0.6082,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.4147597551345825,
      "rewards/margins": 0.5554874539375305,
      "rewards/rejected": -1.9702472686767578,
      "step": 312
    },
    {
      "epoch": 0.6690714762859051,
      "grad_norm": 11.171229600938071,
      "learning_rate": 2.9663167846209996e-07,
      "logits/chosen": -0.6838382482528687,
      "logits/rejected": -0.6743027567863464,
      "logps/chosen": -368.8251037597656,
      "logps/rejected": -415.6241149902344,
      "loss": 0.6372,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.388074278831482,
      "rewards/margins": 0.4560723900794983,
      "rewards/rejected": -1.844146490097046,
      "step": 313
    },
    {
      "epoch": 0.6712090848363393,
      "grad_norm": 10.489570114197578,
      "learning_rate": 2.9322074751673974e-07,
      "logits/chosen": -0.6488001346588135,
      "logits/rejected": -0.6053016781806946,
      "logps/chosen": -422.6211853027344,
      "logps/rejected": -449.6383972167969,
      "loss": 0.6577,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.6949717998504639,
      "rewards/margins": 0.3523138463497162,
      "rewards/rejected": -2.047285556793213,
      "step": 314
    },
    {
      "epoch": 0.6733466933867736,
      "grad_norm": 9.335833798624803,
      "learning_rate": 2.898213858452173e-07,
      "logits/chosen": -0.7407481670379639,
      "logits/rejected": -0.6984574794769287,
      "logps/chosen": -426.7627868652344,
      "logps/rejected": -433.4222106933594,
      "loss": 0.6038,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.5585707426071167,
      "rewards/margins": 0.30426639318466187,
      "rewards/rejected": -1.8628369569778442,
      "step": 315
    },
    {
      "epoch": 0.6754843019372078,
      "grad_norm": 9.82583152531341,
      "learning_rate": 2.864337836414018e-07,
      "logits/chosen": -0.7897535562515259,
      "logits/rejected": -0.7509832382202148,
      "logps/chosen": -440.0413818359375,
      "logps/rejected": -473.6156311035156,
      "loss": 0.5877,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.778262972831726,
      "rewards/margins": 0.3270663917064667,
      "rewards/rejected": -2.1053295135498047,
      "step": 316
    },
    {
      "epoch": 0.677621910487642,
      "grad_norm": 10.397708781784715,
      "learning_rate": 2.8305813044122093e-07,
      "logits/chosen": -0.5974478125572205,
      "logits/rejected": -0.5807868242263794,
      "logps/chosen": -366.0530090332031,
      "logps/rejected": -355.85882568359375,
      "loss": 0.6565,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.3970279693603516,
      "rewards/margins": 0.0002168789505958557,
      "rewards/rejected": -1.3972446918487549,
      "step": 317
    },
    {
      "epoch": 0.6797595190380762,
      "grad_norm": 10.464645314526035,
      "learning_rate": 2.7969461511205806e-07,
      "logits/chosen": -0.626457691192627,
      "logits/rejected": -0.5530537366867065,
      "logps/chosen": -330.521240234375,
      "logps/rejected": -358.5421142578125,
      "loss": 0.6146,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.4030221700668335,
      "rewards/margins": 0.22237975895404816,
      "rewards/rejected": -1.6254019737243652,
      "step": 318
    },
    {
      "epoch": 0.6818971275885104,
      "grad_norm": 9.874403173091292,
      "learning_rate": 2.763434258421836e-07,
      "logits/chosen": -0.7100091576576233,
      "logits/rejected": -0.6709161996841431,
      "logps/chosen": -342.3360595703125,
      "logps/rejected": -356.4312744140625,
      "loss": 0.6294,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.2349555492401123,
      "rewards/margins": 0.18816961348056793,
      "rewards/rejected": -1.4231250286102295,
      "step": 319
    },
    {
      "epoch": 0.6840347361389446,
      "grad_norm": 10.416140198085172,
      "learning_rate": 2.730047501302266e-07,
      "logits/chosen": -0.7924367785453796,
      "logits/rejected": -0.7890709638595581,
      "logps/chosen": -402.750244140625,
      "logps/rejected": -433.9951171875,
      "loss": 0.5975,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.3218122720718384,
      "rewards/margins": 0.32942885160446167,
      "rewards/rejected": -1.6512411832809448,
      "step": 320
    },
    {
      "epoch": 0.6861723446893787,
      "grad_norm": 10.264424479929405,
      "learning_rate": 2.696787747746839e-07,
      "logits/chosen": -0.7326480150222778,
      "logits/rejected": -0.727679967880249,
      "logps/chosen": -335.9344177246094,
      "logps/rejected": -376.9026794433594,
      "loss": 0.6166,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.2939304113388062,
      "rewards/margins": 0.3992197811603546,
      "rewards/rejected": -1.6931501626968384,
      "step": 321
    },
    {
      "epoch": 0.6883099532398129,
      "grad_norm": 9.672418793392822,
      "learning_rate": 2.6636568586346897e-07,
      "logits/chosen": -0.7330962419509888,
      "logits/rejected": -0.7231791615486145,
      "logps/chosen": -344.6290588378906,
      "logps/rejected": -368.3528137207031,
      "loss": 0.6236,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.1829473972320557,
      "rewards/margins": 0.23583151400089264,
      "rewards/rejected": -1.4187790155410767,
      "step": 322
    },
    {
      "epoch": 0.6904475617902471,
      "grad_norm": 12.909094410970068,
      "learning_rate": 2.6306566876350067e-07,
      "logits/chosen": -0.7223283648490906,
      "logits/rejected": -0.6862327456474304,
      "logps/chosen": -427.14727783203125,
      "logps/rejected": -453.6234436035156,
      "loss": 0.5843,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.5469043254852295,
      "rewards/margins": 0.278840035200119,
      "rewards/rejected": -1.825744390487671,
      "step": 323
    },
    {
      "epoch": 0.6925851703406813,
      "grad_norm": 13.707807531422917,
      "learning_rate": 2.597789081103313e-07,
      "logits/chosen": -0.7629610300064087,
      "logits/rejected": -0.727975070476532,
      "logps/chosen": -382.91278076171875,
      "logps/rejected": -421.9703369140625,
      "loss": 0.5563,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -1.4632904529571533,
      "rewards/margins": 0.4552845358848572,
      "rewards/rejected": -1.9185751676559448,
      "step": 324
    },
    {
      "epoch": 0.6947227788911156,
      "grad_norm": 10.588462296925226,
      "learning_rate": 2.5650558779781635e-07,
      "logits/chosen": -0.621019184589386,
      "logits/rejected": -0.5743827223777771,
      "logps/chosen": -433.55267333984375,
      "logps/rejected": -461.3088073730469,
      "loss": 0.6159,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.6322648525238037,
      "rewards/margins": 0.2886176109313965,
      "rewards/rejected": -1.9208825826644897,
      "step": 325
    },
    {
      "epoch": 0.6968603874415498,
      "grad_norm": 9.6025165386732,
      "learning_rate": 2.5324589096782656e-07,
      "logits/chosen": -0.6759508848190308,
      "logits/rejected": -0.6631283760070801,
      "logps/chosen": -414.1610107421875,
      "logps/rejected": -420.1568603515625,
      "loss": 0.6298,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.416655421257019,
      "rewards/margins": 0.17679718136787415,
      "rewards/rejected": -1.5934526920318604,
      "step": 326
    },
    {
      "epoch": 0.698997995991984,
      "grad_norm": 12.80932336769188,
      "learning_rate": 2.500000000000001e-07,
      "logits/chosen": -0.6499335765838623,
      "logits/rejected": -0.662979245185852,
      "logps/chosen": -405.96063232421875,
      "logps/rejected": -447.20172119140625,
      "loss": 0.6288,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.4347225427627563,
      "rewards/margins": 0.31777456402778625,
      "rewards/rejected": -1.7524970769882202,
      "step": 327
    },
    {
      "epoch": 0.7011356045424182,
      "grad_norm": 12.08919140781653,
      "learning_rate": 2.467680965015387e-07,
      "logits/chosen": -0.7271804213523865,
      "logits/rejected": -0.7305589914321899,
      "logps/chosen": -362.54632568359375,
      "logps/rejected": -384.875,
      "loss": 0.634,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.2877211570739746,
      "rewards/margins": 0.24846753478050232,
      "rewards/rejected": -1.5361886024475098,
      "step": 328
    },
    {
      "epoch": 0.7032732130928524,
      "grad_norm": 10.873874736167313,
      "learning_rate": 2.4355036129704696e-07,
      "logits/chosen": -0.6805239915847778,
      "logits/rejected": -0.6776773929595947,
      "logps/chosen": -472.7155456542969,
      "logps/rejected": -522.7994384765625,
      "loss": 0.6205,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.6964683532714844,
      "rewards/margins": 0.3618759214878082,
      "rewards/rejected": -2.0583443641662598,
      "step": 329
    },
    {
      "epoch": 0.7054108216432866,
      "grad_norm": 16.081627749911508,
      "learning_rate": 2.403469744184154e-07,
      "logits/chosen": -0.7133939266204834,
      "logits/rejected": -0.7143837809562683,
      "logps/chosen": -382.49078369140625,
      "logps/rejected": -437.5693664550781,
      "loss": 0.6097,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.266930341720581,
      "rewards/margins": 0.49213629961013794,
      "rewards/rejected": -1.7590665817260742,
      "step": 330
    },
    {
      "epoch": 0.7075484301937208,
      "grad_norm": 10.322962661870067,
      "learning_rate": 2.371581150947476e-07,
      "logits/chosen": -0.8041883707046509,
      "logits/rejected": -0.8093154430389404,
      "logps/chosen": -430.856689453125,
      "logps/rejected": -477.88787841796875,
      "loss": 0.6063,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.3982198238372803,
      "rewards/margins": 0.3465649485588074,
      "rewards/rejected": -1.7447847127914429,
      "step": 331
    },
    {
      "epoch": 0.7096860387441549,
      "grad_norm": 10.446630163251449,
      "learning_rate": 2.3398396174233176e-07,
      "logits/chosen": -0.6520624160766602,
      "logits/rejected": -0.6437772512435913,
      "logps/chosen": -422.0386047363281,
      "logps/rejected": -486.0862731933594,
      "loss": 0.6174,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.6643366813659668,
      "rewards/margins": 0.3572143316268921,
      "rewards/rejected": -2.0215511322021484,
      "step": 332
    },
    {
      "epoch": 0.7118236472945891,
      "grad_norm": 11.809866444989042,
      "learning_rate": 2.3082469195465893e-07,
      "logits/chosen": -0.7520323395729065,
      "logits/rejected": -0.7196107506752014,
      "logps/chosen": -411.33251953125,
      "logps/rejected": -455.638916015625,
      "loss": 0.5696,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.6863501071929932,
      "rewards/margins": 0.3991457223892212,
      "rewards/rejected": -2.085495710372925,
      "step": 333
    },
    {
      "epoch": 0.7139612558450233,
      "grad_norm": 11.4706777134489,
      "learning_rate": 2.2768048249248644e-07,
      "logits/chosen": -0.6395952105522156,
      "logits/rejected": -0.612390398979187,
      "logps/chosen": -408.4999084472656,
      "logps/rejected": -444.7389831542969,
      "loss": 0.6339,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.7306082248687744,
      "rewards/margins": 0.3128102421760559,
      "rewards/rejected": -2.0434184074401855,
      "step": 334
    },
    {
      "epoch": 0.7160988643954576,
      "grad_norm": 10.253605586246742,
      "learning_rate": 2.2455150927394878e-07,
      "logits/chosen": -0.6910028457641602,
      "logits/rejected": -0.6887121200561523,
      "logps/chosen": -373.79571533203125,
      "logps/rejected": -457.9923095703125,
      "loss": 0.6146,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.5869219303131104,
      "rewards/margins": 0.5055859088897705,
      "rewards/rejected": -2.0925076007843018,
      "step": 335
    },
    {
      "epoch": 0.7182364729458918,
      "grad_norm": 10.09520238328347,
      "learning_rate": 2.2143794736471388e-07,
      "logits/chosen": -0.7225451469421387,
      "logits/rejected": -0.7483439445495605,
      "logps/chosen": -484.85748291015625,
      "logps/rejected": -529.5263061523438,
      "loss": 0.6224,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.8494200706481934,
      "rewards/margins": 0.2027570605278015,
      "rewards/rejected": -2.0521771907806396,
      "step": 336
    },
    {
      "epoch": 0.720374081496326,
      "grad_norm": 10.071232143800623,
      "learning_rate": 2.1833997096818895e-07,
      "logits/chosen": -0.5754382610321045,
      "logits/rejected": -0.5392119288444519,
      "logps/chosen": -344.8245544433594,
      "logps/rejected": -379.4691162109375,
      "loss": 0.6219,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.2857069969177246,
      "rewards/margins": 0.34328341484069824,
      "rewards/rejected": -1.6289904117584229,
      "step": 337
    },
    {
      "epoch": 0.7225116900467602,
      "grad_norm": 10.65729584502251,
      "learning_rate": 2.1525775341577402e-07,
      "logits/chosen": -0.6606283187866211,
      "logits/rejected": -0.6608355045318604,
      "logps/chosen": -414.2405700683594,
      "logps/rejected": -429.601806640625,
      "loss": 0.5947,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.3188872337341309,
      "rewards/margins": 0.19126060605049133,
      "rewards/rejected": -1.5101479291915894,
      "step": 338
    },
    {
      "epoch": 0.7246492985971944,
      "grad_norm": 10.538063937615522,
      "learning_rate": 2.121914671571633e-07,
      "logits/chosen": -0.7743428945541382,
      "logits/rejected": -0.7525985836982727,
      "logps/chosen": -367.4284973144531,
      "logps/rejected": -441.0301818847656,
      "loss": 0.6129,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -1.3432848453521729,
      "rewards/margins": 0.6236953735351562,
      "rewards/rejected": -1.9669800996780396,
      "step": 339
    },
    {
      "epoch": 0.7267869071476286,
      "grad_norm": 9.94512421358411,
      "learning_rate": 2.0914128375069722e-07,
      "logits/chosen": -0.7715132236480713,
      "logits/rejected": -0.7799488306045532,
      "logps/chosen": -431.17169189453125,
      "logps/rejected": -494.21197509765625,
      "loss": 0.5912,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.5074207782745361,
      "rewards/margins": 0.48499661684036255,
      "rewards/rejected": -1.9924174547195435,
      "step": 340
    },
    {
      "epoch": 0.7289245156980628,
      "grad_norm": 12.36515548240608,
      "learning_rate": 2.0610737385376348e-07,
      "logits/chosen": -0.7136672139167786,
      "logits/rejected": -0.6798695921897888,
      "logps/chosen": -405.33905029296875,
      "logps/rejected": -437.63330078125,
      "loss": 0.5978,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.4325660467147827,
      "rewards/margins": 0.23246146738529205,
      "rewards/rejected": -1.6650276184082031,
      "step": 341
    },
    {
      "epoch": 0.731062124248497,
      "grad_norm": 10.594170284983056,
      "learning_rate": 2.0308990721324926e-07,
      "logits/chosen": -0.6517391800880432,
      "logits/rejected": -0.6472780108451843,
      "logps/chosen": -456.90570068359375,
      "logps/rejected": -480.61138916015625,
      "loss": 0.5951,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -1.691187858581543,
      "rewards/margins": 0.42632347345352173,
      "rewards/rejected": -2.117511034011841,
      "step": 342
    },
    {
      "epoch": 0.7331997327989312,
      "grad_norm": 11.483481596708172,
      "learning_rate": 2.0008905265604315e-07,
      "logits/chosen": -0.7073544263839722,
      "logits/rejected": -0.6990326642990112,
      "logps/chosen": -409.7100524902344,
      "logps/rejected": -450.9366455078125,
      "loss": 0.5441,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.6152515411376953,
      "rewards/margins": 0.3995630741119385,
      "rewards/rejected": -2.014814853668213,
      "step": 343
    },
    {
      "epoch": 0.7353373413493653,
      "grad_norm": 13.346456381620781,
      "learning_rate": 1.971049780795901e-07,
      "logits/chosen": -0.7003156542778015,
      "logits/rejected": -0.6687884330749512,
      "logps/chosen": -310.5570373535156,
      "logps/rejected": -344.05859375,
      "loss": 0.6145,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.0297322273254395,
      "rewards/margins": 0.3454705476760864,
      "rewards/rejected": -1.3752026557922363,
      "step": 344
    },
    {
      "epoch": 0.7374749498997996,
      "grad_norm": 10.139219194086207,
      "learning_rate": 1.9413785044249676e-07,
      "logits/chosen": -0.6944881677627563,
      "logits/rejected": -0.6632839441299438,
      "logps/chosen": -381.2460632324219,
      "logps/rejected": -414.730712890625,
      "loss": 0.5746,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.378089427947998,
      "rewards/margins": 0.35800689458847046,
      "rewards/rejected": -1.7360961437225342,
      "step": 345
    },
    {
      "epoch": 0.7396125584502338,
      "grad_norm": 9.84020912855359,
      "learning_rate": 1.9118783575519109e-07,
      "logits/chosen": -0.7444390058517456,
      "logits/rejected": -0.7687693238258362,
      "logps/chosen": -441.13104248046875,
      "logps/rejected": -471.73797607421875,
      "loss": 0.6159,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.675041675567627,
      "rewards/margins": 0.1502073109149933,
      "rewards/rejected": -1.8252489566802979,
      "step": 346
    },
    {
      "epoch": 0.741750167000668,
      "grad_norm": 11.291373399374436,
      "learning_rate": 1.8825509907063326e-07,
      "logits/chosen": -0.7405213117599487,
      "logits/rejected": -0.7411251068115234,
      "logps/chosen": -346.1521301269531,
      "logps/rejected": -372.3758850097656,
      "loss": 0.6207,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.4540354013442993,
      "rewards/margins": 0.28074249625205994,
      "rewards/rejected": -1.7347780466079712,
      "step": 347
    },
    {
      "epoch": 0.7438877755511022,
      "grad_norm": 9.478462210282277,
      "learning_rate": 1.8533980447508135e-07,
      "logits/chosen": -0.7745504975318909,
      "logits/rejected": -0.7580114603042603,
      "logps/chosen": -364.4132995605469,
      "logps/rejected": -376.5552978515625,
      "loss": 0.6103,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.342382550239563,
      "rewards/margins": 0.21273840963840485,
      "rewards/rejected": -1.5551210641860962,
      "step": 348
    },
    {
      "epoch": 0.7460253841015364,
      "grad_norm": 11.376031296146607,
      "learning_rate": 1.824421150789106e-07,
      "logits/chosen": -0.588141918182373,
      "logits/rejected": -0.6058573126792908,
      "logps/chosen": -402.21026611328125,
      "logps/rejected": -441.880615234375,
      "loss": 0.6202,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.4959633350372314,
      "rewards/margins": 0.359602689743042,
      "rewards/rejected": -1.8555659055709839,
      "step": 349
    },
    {
      "epoch": 0.7481629926519706,
      "grad_norm": 9.3095000239465,
      "learning_rate": 1.7956219300748792e-07,
      "logits/chosen": -0.7804590463638306,
      "logits/rejected": -0.768570601940155,
      "logps/chosen": -395.44970703125,
      "logps/rejected": -442.4303894042969,
      "loss": 0.5622,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.3593695163726807,
      "rewards/margins": 0.4249880313873291,
      "rewards/rejected": -1.7843575477600098,
      "step": 350
    },
    {
      "epoch": 0.7503006012024048,
      "grad_norm": 10.971792168406296,
      "learning_rate": 1.7670019939210023e-07,
      "logits/chosen": -0.6696098446846008,
      "logits/rejected": -0.6669338941574097,
      "logps/chosen": -451.68768310546875,
      "logps/rejected": -497.6464538574219,
      "loss": 0.5897,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.7285881042480469,
      "rewards/margins": 0.4477997124195099,
      "rewards/rejected": -2.1763877868652344,
      "step": 351
    },
    {
      "epoch": 0.752438209752839,
      "grad_norm": 11.419971323161318,
      "learning_rate": 1.7385629436093956e-07,
      "logits/chosen": -0.6907357573509216,
      "logits/rejected": -0.637013852596283,
      "logps/chosen": -432.1939392089844,
      "logps/rejected": -469.10162353515625,
      "loss": 0.6008,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.7298922538757324,
      "rewards/margins": 0.38807937502861023,
      "rewards/rejected": -2.117971420288086,
      "step": 352
    },
    {
      "epoch": 0.7545758183032732,
      "grad_norm": 12.388342839443734,
      "learning_rate": 1.710306370301437e-07,
      "logits/chosen": -0.7042302489280701,
      "logits/rejected": -0.7210839986801147,
      "logps/chosen": -481.449951171875,
      "logps/rejected": -541.4148559570312,
      "loss": 0.6228,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.7111109495162964,
      "rewards/margins": 0.5329866409301758,
      "rewards/rejected": -2.2440977096557617,
      "step": 353
    },
    {
      "epoch": 0.7567134268537075,
      "grad_norm": 10.900263207759233,
      "learning_rate": 1.6822338549489446e-07,
      "logits/chosen": -0.6276527047157288,
      "logits/rejected": -0.6185672879219055,
      "logps/chosen": -353.99462890625,
      "logps/rejected": -390.6813659667969,
      "loss": 0.5823,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.318265438079834,
      "rewards/margins": 0.3258642554283142,
      "rewards/rejected": -1.6441295146942139,
      "step": 354
    },
    {
      "epoch": 0.7588510354041417,
      "grad_norm": 11.630075473409493,
      "learning_rate": 1.6543469682057104e-07,
      "logits/chosen": -0.7092128992080688,
      "logits/rejected": -0.6994844079017639,
      "logps/chosen": -449.5421142578125,
      "logps/rejected": -491.48406982421875,
      "loss": 0.5833,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.727628231048584,
      "rewards/margins": 0.27954497933387756,
      "rewards/rejected": -2.0071730613708496,
      "step": 355
    },
    {
      "epoch": 0.7609886439545758,
      "grad_norm": 11.035433473738337,
      "learning_rate": 1.6266472703396284e-07,
      "logits/chosen": -0.801999568939209,
      "logits/rejected": -0.7807914614677429,
      "logps/chosen": -436.8575439453125,
      "logps/rejected": -460.9193115234375,
      "loss": 0.5715,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.5792278051376343,
      "rewards/margins": 0.3968886435031891,
      "rewards/rejected": -1.976116418838501,
      "step": 356
    },
    {
      "epoch": 0.76312625250501,
      "grad_norm": 11.722081233691071,
      "learning_rate": 1.599136311145402e-07,
      "logits/chosen": -0.6747885942459106,
      "logits/rejected": -0.618495523929596,
      "logps/chosen": -422.78729248046875,
      "logps/rejected": -472.6419372558594,
      "loss": 0.6287,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.606202244758606,
      "rewards/margins": 0.4832748472690582,
      "rewards/rejected": -2.089477062225342,
      "step": 357
    },
    {
      "epoch": 0.7652638610554442,
      "grad_norm": 12.64820349502746,
      "learning_rate": 1.5718156298578288e-07,
      "logits/chosen": -0.7273571491241455,
      "logits/rejected": -0.6881564855575562,
      "logps/chosen": -425.4215087890625,
      "logps/rejected": -444.314208984375,
      "loss": 0.628,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.6894898414611816,
      "rewards/margins": 0.1857471764087677,
      "rewards/rejected": -1.875237226486206,
      "step": 358
    },
    {
      "epoch": 0.7674014696058784,
      "grad_norm": 10.96328639456088,
      "learning_rate": 1.5446867550656767e-07,
      "logits/chosen": -0.6399669647216797,
      "logits/rejected": -0.6358177661895752,
      "logps/chosen": -372.887939453125,
      "logps/rejected": -401.3673095703125,
      "loss": 0.5816,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.543872356414795,
      "rewards/margins": 0.2215932011604309,
      "rewards/rejected": -1.7654657363891602,
      "step": 359
    },
    {
      "epoch": 0.7695390781563126,
      "grad_norm": 11.515812302503546,
      "learning_rate": 1.5177512046261666e-07,
      "logits/chosen": -0.7418455481529236,
      "logits/rejected": -0.6992334127426147,
      "logps/chosen": -440.9914245605469,
      "logps/rejected": -484.72882080078125,
      "loss": 0.5918,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.6546094417572021,
      "rewards/margins": 0.40860795974731445,
      "rewards/rejected": -2.0632174015045166,
      "step": 360
    },
    {
      "epoch": 0.7716766867067468,
      "grad_norm": 11.301203400803265,
      "learning_rate": 1.4910104855800426e-07,
      "logits/chosen": -0.5830298066139221,
      "logits/rejected": -0.541452944278717,
      "logps/chosen": -428.9151611328125,
      "logps/rejected": -450.665283203125,
      "loss": 0.6244,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.6960718631744385,
      "rewards/margins": 0.26461082696914673,
      "rewards/rejected": -1.96068274974823,
      "step": 361
    },
    {
      "epoch": 0.773814295257181,
      "grad_norm": 10.448871439187576,
      "learning_rate": 1.4644660940672627e-07,
      "logits/chosen": -0.643266499042511,
      "logits/rejected": -0.6516848802566528,
      "logps/chosen": -382.15582275390625,
      "logps/rejected": -422.58001708984375,
      "loss": 0.6302,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.693763017654419,
      "rewards/margins": 0.31615814566612244,
      "rewards/rejected": -2.0099213123321533,
      "step": 362
    },
    {
      "epoch": 0.7759519038076153,
      "grad_norm": 12.065289362336179,
      "learning_rate": 1.4381195152432769e-07,
      "logits/chosen": -0.7809977531433105,
      "logits/rejected": -0.7569341659545898,
      "logps/chosen": -402.4347229003906,
      "logps/rejected": -426.5815124511719,
      "loss": 0.6014,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.4668489694595337,
      "rewards/margins": 0.27162590622901917,
      "rewards/rejected": -1.7384748458862305,
      "step": 363
    },
    {
      "epoch": 0.7780895123580495,
      "grad_norm": 11.450406850059426,
      "learning_rate": 1.4119722231959403e-07,
      "logits/chosen": -0.7261683940887451,
      "logits/rejected": -0.7380213737487793,
      "logps/chosen": -320.5738830566406,
      "logps/rejected": -376.2132568359375,
      "loss": 0.6148,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.1737643480300903,
      "rewards/margins": 0.4349837005138397,
      "rewards/rejected": -1.608747959136963,
      "step": 364
    },
    {
      "epoch": 0.7802271209084837,
      "grad_norm": 10.17075140486933,
      "learning_rate": 1.3860256808630427e-07,
      "logits/chosen": -0.6793671250343323,
      "logits/rejected": -0.6769421100616455,
      "logps/chosen": -396.4522705078125,
      "logps/rejected": -426.5015869140625,
      "loss": 0.5761,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.5801575183868408,
      "rewards/margins": 0.23419132828712463,
      "rewards/rejected": -1.8143486976623535,
      "step": 365
    },
    {
      "epoch": 0.7823647294589179,
      "grad_norm": 9.496259172803326,
      "learning_rate": 1.3602813399504458e-07,
      "logits/chosen": -0.7178226113319397,
      "logits/rejected": -0.7088046073913574,
      "logps/chosen": -362.4988098144531,
      "logps/rejected": -413.68255615234375,
      "loss": 0.5697,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.4096518754959106,
      "rewards/margins": 0.4560312330722809,
      "rewards/rejected": -1.8656830787658691,
      "step": 366
    },
    {
      "epoch": 0.784502338009352,
      "grad_norm": 11.467183173889156,
      "learning_rate": 1.3347406408508694e-07,
      "logits/chosen": -0.58012455701828,
      "logits/rejected": -0.6086165308952332,
      "logps/chosen": -381.5002746582031,
      "logps/rejected": -446.1846618652344,
      "loss": 0.5768,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.546051263809204,
      "rewards/margins": 0.5468287467956543,
      "rewards/rejected": -2.0928800106048584,
      "step": 367
    },
    {
      "epoch": 0.7866399465597862,
      "grad_norm": 11.770361743077546,
      "learning_rate": 1.3094050125632972e-07,
      "logits/chosen": -0.665503978729248,
      "logits/rejected": -0.6807020902633667,
      "logps/chosen": -339.297119140625,
      "logps/rejected": -378.72283935546875,
      "loss": 0.6007,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.239609718322754,
      "rewards/margins": 0.311847984790802,
      "rewards/rejected": -1.5514576435089111,
      "step": 368
    },
    {
      "epoch": 0.7887775551102204,
      "grad_norm": 11.239777792633861,
      "learning_rate": 1.284275872613028e-07,
      "logits/chosen": -0.7516641020774841,
      "logits/rejected": -0.7523844242095947,
      "logps/chosen": -465.70562744140625,
      "logps/rejected": -494.3858642578125,
      "loss": 0.5955,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.708259105682373,
      "rewards/margins": 0.19142737984657288,
      "rewards/rejected": -1.899686336517334,
      "step": 369
    },
    {
      "epoch": 0.7909151636606546,
      "grad_norm": 12.24207530779827,
      "learning_rate": 1.2593546269723647e-07,
      "logits/chosen": -0.7178503274917603,
      "logits/rejected": -0.7465229630470276,
      "logps/chosen": -350.14300537109375,
      "logps/rejected": -426.7923583984375,
      "loss": 0.5556,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -1.3200982809066772,
      "rewards/margins": 0.5981042981147766,
      "rewards/rejected": -1.918202519416809,
      "step": 370
    },
    {
      "epoch": 0.7930527722110888,
      "grad_norm": 11.476654461821495,
      "learning_rate": 1.2346426699819456e-07,
      "logits/chosen": -0.6654431223869324,
      "logits/rejected": -0.6413010954856873,
      "logps/chosen": -432.3926086425781,
      "logps/rejected": -445.0782165527344,
      "loss": 0.6153,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.8410680294036865,
      "rewards/margins": 0.26301610469818115,
      "rewards/rejected": -2.104084014892578,
      "step": 371
    },
    {
      "epoch": 0.795190380761523,
      "grad_norm": 11.015669950808952,
      "learning_rate": 1.2101413842727343e-07,
      "logits/chosen": -0.748419463634491,
      "logits/rejected": -0.7465101480484009,
      "logps/chosen": -404.2447204589844,
      "logps/rejected": -458.7890625,
      "loss": 0.6227,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.4635306596755981,
      "rewards/margins": 0.4813007712364197,
      "rewards/rejected": -1.9448314905166626,
      "step": 372
    },
    {
      "epoch": 0.7973279893119573,
      "grad_norm": 11.968874819239444,
      "learning_rate": 1.1858521406886674e-07,
      "logits/chosen": -0.6935529112815857,
      "logits/rejected": -0.6768806576728821,
      "logps/chosen": -479.6001892089844,
      "logps/rejected": -526.9801025390625,
      "loss": 0.5949,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -2.146116018295288,
      "rewards/margins": 0.5019779205322266,
      "rewards/rejected": -2.6480939388275146,
      "step": 373
    },
    {
      "epoch": 0.7994655978623915,
      "grad_norm": 11.31673592574301,
      "learning_rate": 1.1617762982099444e-07,
      "logits/chosen": -0.7199594974517822,
      "logits/rejected": -0.7195298671722412,
      "logps/chosen": -390.56695556640625,
      "logps/rejected": -437.9982604980469,
      "loss": 0.6259,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.6399167776107788,
      "rewards/margins": 0.4196929931640625,
      "rewards/rejected": -2.0596096515655518,
      "step": 374
    },
    {
      "epoch": 0.8016032064128257,
      "grad_norm": 11.65245860510705,
      "learning_rate": 1.1379152038770029e-07,
      "logits/chosen": -0.6417936086654663,
      "logits/rejected": -0.5881288051605225,
      "logps/chosen": -462.2901611328125,
      "logps/rejected": -533.3080444335938,
      "loss": 0.639,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.8019856214523315,
      "rewards/margins": 0.778126060962677,
      "rewards/rejected": -2.580111503601074,
      "step": 375
    },
    {
      "epoch": 0.8037408149632599,
      "grad_norm": 11.237123066893254,
      "learning_rate": 1.1142701927151454e-07,
      "logits/chosen": -0.742131233215332,
      "logits/rejected": -0.7236477136611938,
      "logps/chosen": -440.7339782714844,
      "logps/rejected": -468.85723876953125,
      "loss": 0.622,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.7191107273101807,
      "rewards/margins": 0.3171979784965515,
      "rewards/rejected": -2.036308765411377,
      "step": 376
    },
    {
      "epoch": 0.8058784235136941,
      "grad_norm": 12.182574925046193,
      "learning_rate": 1.090842587659851e-07,
      "logits/chosen": -0.6230757832527161,
      "logits/rejected": -0.6275469064712524,
      "logps/chosen": -345.8181457519531,
      "logps/rejected": -382.3629150390625,
      "loss": 0.6094,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.315040111541748,
      "rewards/margins": 0.3147667646408081,
      "rewards/rejected": -1.6298067569732666,
      "step": 377
    },
    {
      "epoch": 0.8080160320641283,
      "grad_norm": 12.095497229280761,
      "learning_rate": 1.0676336994827512e-07,
      "logits/chosen": -0.8505545258522034,
      "logits/rejected": -0.8231047987937927,
      "logps/chosen": -439.4098205566406,
      "logps/rejected": -450.57861328125,
      "loss": 0.5882,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.8718527555465698,
      "rewards/margins": 0.0610598549246788,
      "rewards/rejected": -1.9329125881195068,
      "step": 378
    },
    {
      "epoch": 0.8101536406145624,
      "grad_norm": 12.306182802408912,
      "learning_rate": 1.044644826718295e-07,
      "logits/chosen": -0.6553314924240112,
      "logits/rejected": -0.6298251152038574,
      "logps/chosen": -428.9188537597656,
      "logps/rejected": -464.73126220703125,
      "loss": 0.5659,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.740647554397583,
      "rewards/margins": 0.34435731172561646,
      "rewards/rejected": -2.0850048065185547,
      "step": 379
    },
    {
      "epoch": 0.8122912491649966,
      "grad_norm": 11.84427292451934,
      "learning_rate": 1.0218772555910954e-07,
      "logits/chosen": -0.6922661662101746,
      "logits/rejected": -0.7002755999565125,
      "logps/chosen": -382.30987548828125,
      "logps/rejected": -423.1776123046875,
      "loss": 0.6365,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.37299644947052,
      "rewards/margins": 0.28076884150505066,
      "rewards/rejected": -1.6537654399871826,
      "step": 380
    },
    {
      "epoch": 0.8144288577154308,
      "grad_norm": 11.204366574978794,
      "learning_rate": 9.99332259943969e-08,
      "logits/chosen": -0.7378983497619629,
      "logits/rejected": -0.7215259075164795,
      "logps/chosen": -465.00885009765625,
      "logps/rejected": -522.8477783203125,
      "loss": 0.6099,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.6207081079483032,
      "rewards/margins": 0.5316731333732605,
      "rewards/rejected": -2.152381420135498,
      "step": 381
    },
    {
      "epoch": 0.816566466265865,
      "grad_norm": 10.577264704091782,
      "learning_rate": 9.770111011666582e-08,
      "logits/chosen": -0.7259981632232666,
      "logits/rejected": -0.7045480012893677,
      "logps/chosen": -428.8095703125,
      "logps/rejected": -492.239013671875,
      "loss": 0.6087,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.5366865396499634,
      "rewards/margins": 0.7509114146232605,
      "rewards/rejected": -2.287597894668579,
      "step": 382
    },
    {
      "epoch": 0.8187040748162993,
      "grad_norm": 12.483677889539976,
      "learning_rate": 9.549150281252632e-08,
      "logits/chosen": -0.6887928247451782,
      "logits/rejected": -0.6907156705856323,
      "logps/chosen": -352.9273681640625,
      "logps/rejected": -383.6487121582031,
      "loss": 0.6259,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.5845268964767456,
      "rewards/margins": 0.28942757844924927,
      "rewards/rejected": -1.8739545345306396,
      "step": 383
    },
    {
      "epoch": 0.8208416833667335,
      "grad_norm": 19.23190107186564,
      "learning_rate": 9.330452770923603e-08,
      "logits/chosen": -0.762394905090332,
      "logits/rejected": -0.7647604942321777,
      "logps/chosen": -451.6494140625,
      "logps/rejected": -534.89892578125,
      "loss": 0.5934,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.8478323221206665,
      "rewards/margins": 0.6826062798500061,
      "rewards/rejected": -2.5304384231567383,
      "step": 384
    },
    {
      "epoch": 0.8229792919171677,
      "grad_norm": 12.247364252908152,
      "learning_rate": 9.114030716778432e-08,
      "logits/chosen": -0.7505077123641968,
      "logits/rejected": -0.7758923768997192,
      "logps/chosen": -470.6575927734375,
      "logps/rejected": -503.64556884765625,
      "loss": 0.6397,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.8584275245666504,
      "rewards/margins": 0.3208252787590027,
      "rewards/rejected": -2.179252862930298,
      "step": 385
    },
    {
      "epoch": 0.8251169004676019,
      "grad_norm": 11.383815632835855,
      "learning_rate": 8.899896227604508e-08,
      "logits/chosen": -0.6819490194320679,
      "logits/rejected": -0.6731836199760437,
      "logps/chosen": -433.1306457519531,
      "logps/rejected": -487.12646484375,
      "loss": 0.6317,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.6253031492233276,
      "rewards/margins": 0.4985421299934387,
      "rewards/rejected": -2.123845100402832,
      "step": 386
    },
    {
      "epoch": 0.8272545090180361,
      "grad_norm": 13.189195026919496,
      "learning_rate": 8.688061284200265e-08,
      "logits/chosen": -0.6536362171173096,
      "logits/rejected": -0.6316641569137573,
      "logps/chosen": -447.10577392578125,
      "logps/rejected": -500.36700439453125,
      "loss": 0.6544,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.6854324340820312,
      "rewards/margins": 0.3739916980266571,
      "rewards/rejected": -2.0594239234924316,
      "step": 387
    },
    {
      "epoch": 0.8293921175684703,
      "grad_norm": 12.05654473393893,
      "learning_rate": 8.478537738704811e-08,
      "logits/chosen": -0.7113953232765198,
      "logits/rejected": -0.6980003118515015,
      "logps/chosen": -437.1040344238281,
      "logps/rejected": -477.0093078613281,
      "loss": 0.5797,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.7935041189193726,
      "rewards/margins": 0.35914352536201477,
      "rewards/rejected": -2.1526474952697754,
      "step": 388
    },
    {
      "epoch": 0.8315297261189045,
      "grad_norm": 11.698252029580289,
      "learning_rate": 8.271337313934867e-08,
      "logits/chosen": -0.624556839466095,
      "logits/rejected": -0.6502059698104858,
      "logps/chosen": -414.85882568359375,
      "logps/rejected": -456.1212158203125,
      "loss": 0.6072,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.6804428100585938,
      "rewards/margins": 0.3041376769542694,
      "rewards/rejected": -1.9845805168151855,
      "step": 389
    },
    {
      "epoch": 0.8336673346693386,
      "grad_norm": 12.14771475451631,
      "learning_rate": 8.066471602728803e-08,
      "logits/chosen": -0.6798664331436157,
      "logits/rejected": -0.6738008260726929,
      "logps/chosen": -411.55047607421875,
      "logps/rejected": -457.5155334472656,
      "loss": 0.5922,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.4717459678649902,
      "rewards/margins": 0.5215471386909485,
      "rewards/rejected": -1.993293046951294,
      "step": 390
    },
    {
      "epoch": 0.8358049432197728,
      "grad_norm": 12.796578845217505,
      "learning_rate": 7.863952067298041e-08,
      "logits/chosen": -0.5822688937187195,
      "logits/rejected": -0.564083993434906,
      "logps/chosen": -431.5522155761719,
      "logps/rejected": -450.26739501953125,
      "loss": 0.628,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.9067468643188477,
      "rewards/margins": 0.21568900346755981,
      "rewards/rejected": -2.1224358081817627,
      "step": 391
    },
    {
      "epoch": 0.837942551770207,
      "grad_norm": 11.159935748642301,
      "learning_rate": 7.663790038585794e-08,
      "logits/chosen": -0.662575364112854,
      "logits/rejected": -0.6590286493301392,
      "logps/chosen": -444.98162841796875,
      "logps/rejected": -497.9795227050781,
      "loss": 0.5731,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.7177234888076782,
      "rewards/margins": 0.6272789239883423,
      "rewards/rejected": -2.3450024127960205,
      "step": 392
    },
    {
      "epoch": 0.8400801603206413,
      "grad_norm": 14.31633694385083,
      "learning_rate": 7.465996715633027e-08,
      "logits/chosen": -0.6459007263183594,
      "logits/rejected": -0.6448737382888794,
      "logps/chosen": -397.7703552246094,
      "logps/rejected": -440.38238525390625,
      "loss": 0.5945,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.7266194820404053,
      "rewards/margins": 0.44395869970321655,
      "rewards/rejected": -2.1705780029296875,
      "step": 393
    },
    {
      "epoch": 0.8422177688710755,
      "grad_norm": 11.224103010133572,
      "learning_rate": 7.270583164951926e-08,
      "logits/chosen": -0.6865531206130981,
      "logits/rejected": -0.6968246698379517,
      "logps/chosen": -354.6371154785156,
      "logps/rejected": -424.811279296875,
      "loss": 0.6334,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.536527156829834,
      "rewards/margins": 0.5009466409683228,
      "rewards/rejected": -2.0374739170074463,
      "step": 394
    },
    {
      "epoch": 0.8443553774215097,
      "grad_norm": 10.826285808287984,
      "learning_rate": 7.077560319906694e-08,
      "logits/chosen": -0.6569056510925293,
      "logits/rejected": -0.6044581532478333,
      "logps/chosen": -360.92681884765625,
      "logps/rejected": -372.06512451171875,
      "loss": 0.6061,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.6241035461425781,
      "rewards/margins": 0.13333997130393982,
      "rewards/rejected": -1.7574434280395508,
      "step": 395
    },
    {
      "epoch": 0.8464929859719439,
      "grad_norm": 11.121731952204106,
      "learning_rate": 6.886938980101869e-08,
      "logits/chosen": -0.6959440112113953,
      "logits/rejected": -0.6976322531700134,
      "logps/chosen": -481.72747802734375,
      "logps/rejected": -528.6837768554688,
      "loss": 0.5492,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": -1.7375783920288086,
      "rewards/margins": 0.5362969040870667,
      "rewards/rejected": -2.2738752365112305,
      "step": 396
    },
    {
      "epoch": 0.8486305945223781,
      "grad_norm": 11.676543714442664,
      "learning_rate": 6.698729810778064e-08,
      "logits/chosen": -0.7131574153900146,
      "logits/rejected": -0.6955525875091553,
      "logps/chosen": -399.06610107421875,
      "logps/rejected": -414.4498291015625,
      "loss": 0.5949,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.6074295043945312,
      "rewards/margins": 0.191550150513649,
      "rewards/rejected": -1.798979640007019,
      "step": 397
    },
    {
      "epoch": 0.8507682030728123,
      "grad_norm": 11.148999020679877,
      "learning_rate": 6.512943342215232e-08,
      "logits/chosen": -0.7562680244445801,
      "logits/rejected": -0.779510498046875,
      "logps/chosen": -484.00506591796875,
      "logps/rejected": -511.72882080078125,
      "loss": 0.5846,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.8436009883880615,
      "rewards/margins": 0.35308870673179626,
      "rewards/rejected": -2.1966898441314697,
      "step": 398
    },
    {
      "epoch": 0.8529058116232465,
      "grad_norm": 11.997120047866387,
      "learning_rate": 6.329589969143517e-08,
      "logits/chosen": -0.6792132258415222,
      "logits/rejected": -0.6694210171699524,
      "logps/chosen": -424.2513427734375,
      "logps/rejected": -454.1995849609375,
      "loss": 0.5749,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -1.7970068454742432,
      "rewards/margins": 0.36387020349502563,
      "rewards/rejected": -2.160876750946045,
      "step": 399
    },
    {
      "epoch": 0.8550434201736807,
      "grad_norm": 11.238178437853232,
      "learning_rate": 6.148679950161672e-08,
      "logits/chosen": -0.6610137820243835,
      "logits/rejected": -0.6665123105049133,
      "logps/chosen": -446.12451171875,
      "logps/rejected": -491.7059326171875,
      "loss": 0.5888,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -2.106739044189453,
      "rewards/margins": 0.3179362714290619,
      "rewards/rejected": -2.4246749877929688,
      "step": 400
    },
    {
      "epoch": 0.8550434201736807,
      "eval_logits/chosen": -0.6434622406959534,
      "eval_logits/rejected": -0.6439588069915771,
      "eval_logps/chosen": -418.7559814453125,
      "eval_logps/rejected": -459.1051330566406,
      "eval_loss": 0.6088488698005676,
      "eval_rewards/accuracies": 0.6829268336296082,
      "eval_rewards/chosen": -1.6320796012878418,
      "eval_rewards/margins": 0.34643232822418213,
      "eval_rewards/rejected": -1.9785118103027344,
      "eval_runtime": 373.8135,
      "eval_samples_per_second": 5.246,
      "eval_steps_per_second": 0.329,
      "step": 400
    },
    {
      "epoch": 0.857181028724115,
      "grad_norm": 13.938068351492317,
      "learning_rate": 5.9702234071631e-08,
      "logits/chosen": -0.6074206233024597,
      "logits/rejected": -0.57494056224823,
      "logps/chosen": -432.34869384765625,
      "logps/rejected": -481.2635498046875,
      "loss": 0.624,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.724292278289795,
      "rewards/margins": 0.546868622303009,
      "rewards/rejected": -2.2711610794067383,
      "step": 401
    },
    {
      "epoch": 0.859318637274549,
      "grad_norm": 14.889197610496133,
      "learning_rate": 5.794230324769517e-08,
      "logits/chosen": -0.6924403309822083,
      "logits/rejected": -0.695598304271698,
      "logps/chosen": -430.3138732910156,
      "logps/rejected": -472.5992431640625,
      "loss": 0.6165,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.809744119644165,
      "rewards/margins": 0.3945625424385071,
      "rewards/rejected": -2.2043066024780273,
      "step": 402
    },
    {
      "epoch": 0.8614562458249833,
      "grad_norm": 10.24820423132373,
      "learning_rate": 5.620710549772295e-08,
      "logits/chosen": -0.6588191390037537,
      "logits/rejected": -0.6449538469314575,
      "logps/chosen": -391.6925354003906,
      "logps/rejected": -442.3234558105469,
      "loss": 0.6086,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.5062448978424072,
      "rewards/margins": 0.3859245777130127,
      "rewards/rejected": -1.89216947555542,
      "step": 403
    },
    {
      "epoch": 0.8635938543754175,
      "grad_norm": 11.857754301901029,
      "learning_rate": 5.44967379058161e-08,
      "logits/chosen": -0.7503631114959717,
      "logits/rejected": -0.7300340533256531,
      "logps/chosen": -386.56072998046875,
      "logps/rejected": -396.8390808105469,
      "loss": 0.5982,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -1.6606768369674683,
      "rewards/margins": 0.09765629470348358,
      "rewards/rejected": -1.7583332061767578,
      "step": 404
    },
    {
      "epoch": 0.8657314629258517,
      "grad_norm": 10.569416708562631,
      "learning_rate": 5.2811296166831666e-08,
      "logits/chosen": -0.7464025020599365,
      "logits/rejected": -0.7271702885627747,
      "logps/chosen": -413.1631774902344,
      "logps/rejected": -470.1753234863281,
      "loss": 0.581,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.5785975456237793,
      "rewards/margins": 0.4657081961631775,
      "rewards/rejected": -2.0443055629730225,
      "step": 405
    },
    {
      "epoch": 0.8678690714762859,
      "grad_norm": 11.592126458293672,
      "learning_rate": 5.11508745810284e-08,
      "logits/chosen": -0.667618453502655,
      "logits/rejected": -0.6744921207427979,
      "logps/chosen": -404.13824462890625,
      "logps/rejected": -412.8828430175781,
      "loss": 0.6282,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -1.6986844539642334,
      "rewards/margins": 0.08317200094461441,
      "rewards/rejected": -1.7818565368652344,
      "step": 406
    },
    {
      "epoch": 0.8700066800267201,
      "grad_norm": 12.223879763686206,
      "learning_rate": 4.951556604879048e-08,
      "logits/chosen": -0.6467772126197815,
      "logits/rejected": -0.6247937679290771,
      "logps/chosen": -442.8312683105469,
      "logps/rejected": -498.9490051269531,
      "loss": 0.6112,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.812768816947937,
      "rewards/margins": 0.4102476239204407,
      "rewards/rejected": -2.2230165004730225,
      "step": 407
    },
    {
      "epoch": 0.8721442885771543,
      "grad_norm": 13.609539677706314,
      "learning_rate": 4.7905462065429946e-08,
      "logits/chosen": -0.838919997215271,
      "logits/rejected": -0.8245532512664795,
      "logps/chosen": -415.890869140625,
      "logps/rejected": -435.3166198730469,
      "loss": 0.6788,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.5928852558135986,
      "rewards/margins": 0.25430333614349365,
      "rewards/rejected": -1.8471887111663818,
      "step": 408
    },
    {
      "epoch": 0.8742818971275885,
      "grad_norm": 10.454604993981434,
      "learning_rate": 4.6320652716067555e-08,
      "logits/chosen": -0.7226736545562744,
      "logits/rejected": -0.7249311208724976,
      "logps/chosen": -406.7791748046875,
      "logps/rejected": -448.5416259765625,
      "loss": 0.609,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.5601541996002197,
      "rewards/margins": 0.37674978375434875,
      "rewards/rejected": -1.936903953552246,
      "step": 409
    },
    {
      "epoch": 0.8764195056780227,
      "grad_norm": 10.922415025272509,
      "learning_rate": 4.4761226670592066e-08,
      "logits/chosen": -0.7072638869285583,
      "logits/rejected": -0.6469031572341919,
      "logps/chosen": -437.16253662109375,
      "logps/rejected": -464.5462951660156,
      "loss": 0.6033,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.673638105392456,
      "rewards/margins": 0.27518972754478455,
      "rewards/rejected": -1.948827862739563,
      "step": 410
    },
    {
      "epoch": 0.878557114228457,
      "grad_norm": 11.15308213585594,
      "learning_rate": 4.322727117869951e-08,
      "logits/chosen": -0.5786024332046509,
      "logits/rejected": -0.5698223114013672,
      "logps/chosen": -387.2678527832031,
      "logps/rejected": -420.85101318359375,
      "loss": 0.6038,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.5769679546356201,
      "rewards/margins": 0.32589417695999146,
      "rewards/rejected": -1.9028621912002563,
      "step": 411
    },
    {
      "epoch": 0.8806947227788912,
      "grad_norm": 14.488282375387797,
      "learning_rate": 4.17188720650119e-08,
      "logits/chosen": -0.7604373097419739,
      "logits/rejected": -0.7526075839996338,
      "logps/chosen": -510.45159912109375,
      "logps/rejected": -509.4095458984375,
      "loss": 0.6893,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -2.090540885925293,
      "rewards/margins": 0.033110879361629486,
      "rewards/rejected": -2.1236515045166016,
      "step": 412
    },
    {
      "epoch": 0.8828323313293254,
      "grad_norm": 11.024440296301012,
      "learning_rate": 4.023611372427471e-08,
      "logits/chosen": -0.7349828481674194,
      "logits/rejected": -0.7459964156150818,
      "logps/chosen": -388.6877746582031,
      "logps/rejected": -420.792236328125,
      "loss": 0.5967,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.7269947528839111,
      "rewards/margins": 0.28061679005622864,
      "rewards/rejected": -2.0076115131378174,
      "step": 413
    },
    {
      "epoch": 0.8849699398797595,
      "grad_norm": 11.21797390523024,
      "learning_rate": 3.877907911663542e-08,
      "logits/chosen": -0.6687692403793335,
      "logits/rejected": -0.6710121631622314,
      "logps/chosen": -361.7718200683594,
      "logps/rejected": -406.8067321777344,
      "loss": 0.5766,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.2828166484832764,
      "rewards/margins": 0.4076838493347168,
      "rewards/rejected": -1.6905003786087036,
      "step": 414
    },
    {
      "epoch": 0.8871075484301937,
      "grad_norm": 11.310104114342186,
      "learning_rate": 3.734784976300165e-08,
      "logits/chosen": -0.7112718820571899,
      "logits/rejected": -0.6793174743652344,
      "logps/chosen": -395.9449768066406,
      "logps/rejected": -415.42108154296875,
      "loss": 0.6427,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.5930345058441162,
      "rewards/margins": 0.189566969871521,
      "rewards/rejected": -1.7826014757156372,
      "step": 415
    },
    {
      "epoch": 0.8892451569806279,
      "grad_norm": 11.184536783628738,
      "learning_rate": 3.594250574048058e-08,
      "logits/chosen": -0.6613335609436035,
      "logits/rejected": -0.6428050994873047,
      "logps/chosen": -367.02874755859375,
      "logps/rejected": -389.9844970703125,
      "loss": 0.6174,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.537019968032837,
      "rewards/margins": 0.1499500423669815,
      "rewards/rejected": -1.6869698762893677,
      "step": 416
    },
    {
      "epoch": 0.8913827655310621,
      "grad_norm": 12.205433845637979,
      "learning_rate": 3.456312567789793e-08,
      "logits/chosen": -0.7070876955986023,
      "logits/rejected": -0.7160503268241882,
      "logps/chosen": -469.0753173828125,
      "logps/rejected": -494.7930908203125,
      "loss": 0.6228,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.9284939765930176,
      "rewards/margins": 0.23351570963859558,
      "rewards/rejected": -2.1620097160339355,
      "step": 417
    },
    {
      "epoch": 0.8935203740814963,
      "grad_norm": 11.816949999049964,
      "learning_rate": 3.3209786751399184e-08,
      "logits/chosen": -0.6653708815574646,
      "logits/rejected": -0.6532600522041321,
      "logps/chosen": -464.9654541015625,
      "logps/rejected": -504.6747741699219,
      "loss": 0.5449,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.9524656534194946,
      "rewards/margins": 0.3868550658226013,
      "rewards/rejected": -2.339320659637451,
      "step": 418
    },
    {
      "epoch": 0.8956579826319305,
      "grad_norm": 10.879487484866441,
      "learning_rate": 3.188256468013139e-08,
      "logits/chosen": -0.6497898101806641,
      "logits/rejected": -0.6454100608825684,
      "logps/chosen": -478.6482238769531,
      "logps/rejected": -530.9612426757812,
      "loss": 0.5632,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.8596200942993164,
      "rewards/margins": 0.5317977070808411,
      "rewards/rejected": -2.3914177417755127,
      "step": 419
    },
    {
      "epoch": 0.8977955911823647,
      "grad_norm": 11.880007198303698,
      "learning_rate": 3.058153372200695e-08,
      "logits/chosen": -0.6183308959007263,
      "logits/rejected": -0.6003840565681458,
      "logps/chosen": -459.9405212402344,
      "logps/rejected": -505.4646911621094,
      "loss": 0.6181,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.9765161275863647,
      "rewards/margins": 0.4471958875656128,
      "rewards/rejected": -2.4237117767333984,
      "step": 420
    },
    {
      "epoch": 0.899933199732799,
      "grad_norm": 13.426952468351809,
      "learning_rate": 2.9306766669548457e-08,
      "logits/chosen": -0.7094901204109192,
      "logits/rejected": -0.6653531193733215,
      "logps/chosen": -466.24029541015625,
      "logps/rejected": -487.9982604980469,
      "loss": 0.5993,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.9488886594772339,
      "rewards/margins": 0.351326048374176,
      "rewards/rejected": -2.3002147674560547,
      "step": 421
    },
    {
      "epoch": 0.9020708082832332,
      "grad_norm": 11.556511924801233,
      "learning_rate": 2.805833484581621e-08,
      "logits/chosen": -0.8073502779006958,
      "logits/rejected": -0.7438942790031433,
      "logps/chosen": -459.5665588378906,
      "logps/rejected": -462.51519775390625,
      "loss": 0.5975,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -1.806351900100708,
      "rewards/margins": 0.16977502405643463,
      "rewards/rejected": -1.976126790046692,
      "step": 422
    },
    {
      "epoch": 0.9042084168336674,
      "grad_norm": 12.210595464753169,
      "learning_rate": 2.6836308100417872e-08,
      "logits/chosen": -0.6977376341819763,
      "logits/rejected": -0.6720814108848572,
      "logps/chosen": -427.6357727050781,
      "logps/rejected": -460.1345520019531,
      "loss": 0.5831,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.711733102798462,
      "rewards/margins": 0.44918665289878845,
      "rewards/rejected": -2.1609199047088623,
      "step": 423
    },
    {
      "epoch": 0.9063460253841016,
      "grad_norm": 9.940416325858004,
      "learning_rate": 2.5640754805600128e-08,
      "logits/chosen": -0.7047473788261414,
      "logits/rejected": -0.7050879597663879,
      "logps/chosen": -355.5130615234375,
      "logps/rejected": -383.0091552734375,
      "loss": 0.6143,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.397302508354187,
      "rewards/margins": 0.2378145009279251,
      "rewards/rejected": -1.6351170539855957,
      "step": 424
    },
    {
      "epoch": 0.9084836339345357,
      "grad_norm": 12.20154656454581,
      "learning_rate": 2.4471741852423233e-08,
      "logits/chosen": -0.7828183174133301,
      "logits/rejected": -0.7872889041900635,
      "logps/chosen": -358.20751953125,
      "logps/rejected": -394.5291748046875,
      "loss": 0.5956,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.3747402429580688,
      "rewards/margins": 0.26737523078918457,
      "rewards/rejected": -1.6421154737472534,
      "step": 425
    },
    {
      "epoch": 0.9106212424849699,
      "grad_norm": 10.941418508752523,
      "learning_rate": 2.3329334647018694e-08,
      "logits/chosen": -0.6170888543128967,
      "logits/rejected": -0.5692444443702698,
      "logps/chosen": -472.42864990234375,
      "logps/rejected": -516.1029052734375,
      "loss": 0.5838,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -2.0783095359802246,
      "rewards/margins": 0.4643981158733368,
      "rewards/rejected": -2.542707681655884,
      "step": 426
    },
    {
      "epoch": 0.9127588510354041,
      "grad_norm": 11.303024362125633,
      "learning_rate": 2.2213597106929605e-08,
      "logits/chosen": -0.5531542301177979,
      "logits/rejected": -0.5305842161178589,
      "logps/chosen": -422.59100341796875,
      "logps/rejected": -460.8222961425781,
      "loss": 0.6129,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.7473095655441284,
      "rewards/margins": 0.3811667263507843,
      "rewards/rejected": -2.12847638130188,
      "step": 427
    },
    {
      "epoch": 0.9148964595858383,
      "grad_norm": 14.94800877117672,
      "learning_rate": 2.1124591657534774e-08,
      "logits/chosen": -0.6627920866012573,
      "logits/rejected": -0.6768360733985901,
      "logps/chosen": -437.7267150878906,
      "logps/rejected": -494.59075927734375,
      "loss": 0.6108,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.8751461505889893,
      "rewards/margins": 0.4180339574813843,
      "rewards/rejected": -2.293180227279663,
      "step": 428
    },
    {
      "epoch": 0.9170340681362725,
      "grad_norm": 11.706241248792244,
      "learning_rate": 2.0062379228555525e-08,
      "logits/chosen": -0.6479263305664062,
      "logits/rejected": -0.6203778386116028,
      "logps/chosen": -371.62310791015625,
      "logps/rejected": -380.03436279296875,
      "loss": 0.6172,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.4537248611450195,
      "rewards/margins": 0.1625545471906662,
      "rewards/rejected": -1.6162794828414917,
      "step": 429
    },
    {
      "epoch": 0.9191716766867067,
      "grad_norm": 11.343840156206866,
      "learning_rate": 1.9027019250647036e-08,
      "logits/chosen": -0.7142120003700256,
      "logits/rejected": -0.7347142696380615,
      "logps/chosen": -411.76312255859375,
      "logps/rejected": -476.20697021484375,
      "loss": 0.5984,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.6978678703308105,
      "rewards/margins": 0.46169888973236084,
      "rewards/rejected": -2.159566640853882,
      "step": 430
    },
    {
      "epoch": 0.921309285237141,
      "grad_norm": 10.191297953603781,
      "learning_rate": 1.8018569652073378e-08,
      "logits/chosen": -0.5895026922225952,
      "logits/rejected": -0.5850787162780762,
      "logps/chosen": -406.5594482421875,
      "logps/rejected": -485.04217529296875,
      "loss": 0.593,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -1.616127371788025,
      "rewards/margins": 0.5671988129615784,
      "rewards/rejected": -2.183326244354248,
      "step": 431
    },
    {
      "epoch": 0.9234468937875752,
      "grad_norm": 12.93643748441664,
      "learning_rate": 1.7037086855465898e-08,
      "logits/chosen": -0.7007228136062622,
      "logits/rejected": -0.6858587265014648,
      "logps/chosen": -412.77496337890625,
      "logps/rejected": -458.0037841796875,
      "loss": 0.6264,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.7415974140167236,
      "rewards/margins": 0.3250362277030945,
      "rewards/rejected": -2.066633701324463,
      "step": 432
    },
    {
      "epoch": 0.9255845023380094,
      "grad_norm": 12.402383758119484,
      "learning_rate": 1.6082625774666792e-08,
      "logits/chosen": -0.6870225667953491,
      "logits/rejected": -0.6988283395767212,
      "logps/chosen": -401.1902770996094,
      "logps/rejected": -415.27093505859375,
      "loss": 0.5975,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.706886649131775,
      "rewards/margins": 0.06286803632974625,
      "rewards/rejected": -1.7697547674179077,
      "step": 433
    },
    {
      "epoch": 0.9277221108884436,
      "grad_norm": 11.598555340742855,
      "learning_rate": 1.5155239811656562e-08,
      "logits/chosen": -0.7391936182975769,
      "logits/rejected": -0.7346464395523071,
      "logps/chosen": -362.8863525390625,
      "logps/rejected": -407.58392333984375,
      "loss": 0.5696,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.4570672512054443,
      "rewards/margins": 0.35567349195480347,
      "rewards/rejected": -1.8127408027648926,
      "step": 434
    },
    {
      "epoch": 0.9298597194388778,
      "grad_norm": 12.334039197101353,
      "learning_rate": 1.4254980853566246e-08,
      "logits/chosen": -0.7256093621253967,
      "logits/rejected": -0.7030697464942932,
      "logps/chosen": -498.5211181640625,
      "logps/rejected": -495.9085693359375,
      "loss": 0.6381,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -2.0069806575775146,
      "rewards/margins": 0.12008260935544968,
      "rewards/rejected": -2.127063274383545,
      "step": 435
    },
    {
      "epoch": 0.931997327989312,
      "grad_norm": 10.831899946588043,
      "learning_rate": 1.3381899269774289e-08,
      "logits/chosen": -0.7507193088531494,
      "logits/rejected": -0.7519603967666626,
      "logps/chosen": -359.82000732421875,
      "logps/rejected": -395.96771240234375,
      "loss": 0.5773,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -1.372948408126831,
      "rewards/margins": 0.3809196352958679,
      "rewards/rejected": -1.7538681030273438,
      "step": 436
    },
    {
      "epoch": 0.9341349365397461,
      "grad_norm": 14.210280355388763,
      "learning_rate": 1.253604390908819e-08,
      "logits/chosen": -0.5923041701316833,
      "logits/rejected": -0.6011568307876587,
      "logps/chosen": -345.30633544921875,
      "logps/rejected": -392.51751708984375,
      "loss": 0.6674,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.585827350616455,
      "rewards/margins": 0.3826131224632263,
      "rewards/rejected": -1.968440294265747,
      "step": 437
    },
    {
      "epoch": 0.9362725450901803,
      "grad_norm": 9.851284631791968,
      "learning_rate": 1.1717462097011855e-08,
      "logits/chosen": -0.6331924796104431,
      "logits/rejected": -0.6489231586456299,
      "logps/chosen": -429.216796875,
      "logps/rejected": -477.13836669921875,
      "loss": 0.5764,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.8334829807281494,
      "rewards/margins": 0.3744773864746094,
      "rewards/rejected": -2.207960605621338,
      "step": 438
    },
    {
      "epoch": 0.9384101536406145,
      "grad_norm": 11.272588511911392,
      "learning_rate": 1.0926199633097154e-08,
      "logits/chosen": -0.5822413563728333,
      "logits/rejected": -0.5487803220748901,
      "logps/chosen": -428.51934814453125,
      "logps/rejected": -487.8909606933594,
      "loss": 0.6055,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.6083500385284424,
      "rewards/margins": 0.4286819398403168,
      "rewards/rejected": -2.037031888961792,
      "step": 439
    },
    {
      "epoch": 0.9405477621910487,
      "grad_norm": 10.801295437898501,
      "learning_rate": 1.016230078838226e-08,
      "logits/chosen": -0.7505050897598267,
      "logits/rejected": -0.7208874225616455,
      "logps/chosen": -511.32110595703125,
      "logps/rejected": -563.9736938476562,
      "loss": 0.5874,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -2.1491966247558594,
      "rewards/margins": 0.5160467624664307,
      "rewards/rejected": -2.665243625640869,
      "step": 440
    },
    {
      "epoch": 0.942685370741483,
      "grad_norm": 12.022377343895434,
      "learning_rate": 9.425808302913728e-09,
      "logits/chosen": -0.6826910972595215,
      "logits/rejected": -0.7009281516075134,
      "logps/chosen": -396.803466796875,
      "logps/rejected": -475.8189697265625,
      "loss": 0.5696,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.5288541316986084,
      "rewards/margins": 0.5459466576576233,
      "rewards/rejected": -2.074800968170166,
      "step": 441
    },
    {
      "epoch": 0.9448229792919172,
      "grad_norm": 11.529829218714097,
      "learning_rate": 8.716763383355862e-09,
      "logits/chosen": -0.6541940569877625,
      "logits/rejected": -0.6755858063697815,
      "logps/chosen": -480.7030944824219,
      "logps/rejected": -526.9130249023438,
      "loss": 0.5949,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -2.1652467250823975,
      "rewards/margins": 0.42291441559791565,
      "rewards/rejected": -2.588160991668701,
      "step": 442
    },
    {
      "epoch": 0.9469605878423514,
      "grad_norm": 11.296144808610602,
      "learning_rate": 8.035205700685165e-09,
      "logits/chosen": -0.5620754361152649,
      "logits/rejected": -0.5832556486129761,
      "logps/chosen": -406.50115966796875,
      "logps/rejected": -483.1033935546875,
      "loss": 0.5998,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.7801560163497925,
      "rewards/margins": 0.6258376240730286,
      "rewards/rejected": -2.4059934616088867,
      "step": 443
    },
    {
      "epoch": 0.9490981963927856,
      "grad_norm": 14.459436916194253,
      "learning_rate": 7.381173387970397e-09,
      "logits/chosen": -0.6875967979431152,
      "logits/rejected": -0.7037211060523987,
      "logps/chosen": -387.79193115234375,
      "logps/rejected": -406.17730712890625,
      "loss": 0.625,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.775752067565918,
      "rewards/margins": 0.16077642142772675,
      "rewards/rejected": -1.9365284442901611,
      "step": 444
    },
    {
      "epoch": 0.9512358049432198,
      "grad_norm": 12.667943463380384,
      "learning_rate": 6.754703038239329e-09,
      "logits/chosen": -0.6868771314620972,
      "logits/rejected": -0.6806486248970032,
      "logps/chosen": -391.65704345703125,
      "logps/rejected": -439.91534423828125,
      "loss": 0.616,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.5933175086975098,
      "rewards/margins": 0.549602746963501,
      "rewards/rejected": -2.14292049407959,
      "step": 445
    },
    {
      "epoch": 0.953373413493654,
      "grad_norm": 13.999625605626278,
      "learning_rate": 6.15582970243117e-09,
      "logits/chosen": -0.679996132850647,
      "logits/rejected": -0.6954419612884521,
      "logps/chosen": -411.924072265625,
      "logps/rejected": -465.689453125,
      "loss": 0.5689,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -1.5961847305297852,
      "rewards/margins": 0.44558507204055786,
      "rewards/rejected": -2.0417697429656982,
      "step": 446
    },
    {
      "epoch": 0.9555110220440882,
      "grad_norm": 10.363695148382087,
      "learning_rate": 5.5845868874357385e-09,
      "logits/chosen": -0.6567386388778687,
      "logits/rejected": -0.6833846569061279,
      "logps/chosen": -491.9205627441406,
      "logps/rejected": -569.992431640625,
      "loss": 0.5532,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.7513771057128906,
      "rewards/margins": 0.6100505590438843,
      "rewards/rejected": -2.3614273071289062,
      "step": 447
    },
    {
      "epoch": 0.9576486305945224,
      "grad_norm": 13.618449735155838,
      "learning_rate": 5.0410065542185184e-09,
      "logits/chosen": -0.5561550855636597,
      "logits/rejected": -0.5477365851402283,
      "logps/chosen": -404.7331848144531,
      "logps/rejected": -456.8463134765625,
      "loss": 0.5897,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.8092013597488403,
      "rewards/margins": 0.39521071314811707,
      "rewards/rejected": -2.2044119834899902,
      "step": 448
    },
    {
      "epoch": 0.9597862391449565,
      "grad_norm": 11.691098922849898,
      "learning_rate": 4.5251191160326495e-09,
      "logits/chosen": -0.7571395039558411,
      "logits/rejected": -0.6862713098526001,
      "logps/chosen": -404.239501953125,
      "logps/rejected": -430.745849609375,
      "loss": 0.6223,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.5349277257919312,
      "rewards/margins": 0.27732717990875244,
      "rewards/rejected": -1.8122549057006836,
      "step": 449
    },
    {
      "epoch": 0.9619238476953907,
      "grad_norm": 11.212537524360101,
      "learning_rate": 4.036953436716895e-09,
      "logits/chosen": -0.6666488647460938,
      "logits/rejected": -0.6362468600273132,
      "logps/chosen": -390.62713623046875,
      "logps/rejected": -432.0528564453125,
      "loss": 0.5807,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.528037428855896,
      "rewards/margins": 0.3787933588027954,
      "rewards/rejected": -1.9068307876586914,
      "step": 450
    },
    {
      "epoch": 0.964061456245825,
      "grad_norm": 11.304696270661244,
      "learning_rate": 3.5765368290813223e-09,
      "logits/chosen": -0.6946466565132141,
      "logits/rejected": -0.7254693508148193,
      "logps/chosen": -417.11187744140625,
      "logps/rejected": -472.14288330078125,
      "loss": 0.6012,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.704296588897705,
      "rewards/margins": 0.47184205055236816,
      "rewards/rejected": -2.1761388778686523,
      "step": 451
    },
    {
      "epoch": 0.9661990647962592,
      "grad_norm": 12.23326718620082,
      "learning_rate": 3.1438950533786977e-09,
      "logits/chosen": -0.727628767490387,
      "logits/rejected": -0.7244228720664978,
      "logps/chosen": -368.25653076171875,
      "logps/rejected": -406.3876647949219,
      "loss": 0.6045,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.741332769393921,
      "rewards/margins": 0.22878167033195496,
      "rewards/rejected": -1.9701144695281982,
      "step": 452
    },
    {
      "epoch": 0.9683366733466934,
      "grad_norm": 12.889743033859292,
      "learning_rate": 2.739052315863355e-09,
      "logits/chosen": -0.7463970184326172,
      "logits/rejected": -0.7229277491569519,
      "logps/chosen": -395.8512878417969,
      "logps/rejected": -452.2123718261719,
      "loss": 0.5944,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.4541352987289429,
      "rewards/margins": 0.4854976534843445,
      "rewards/rejected": -1.9396328926086426,
      "step": 453
    },
    {
      "epoch": 0.9704742818971276,
      "grad_norm": 11.397457544749724,
      "learning_rate": 2.3620312674367816e-09,
      "logits/chosen": -0.7733277678489685,
      "logits/rejected": -0.761780858039856,
      "logps/chosen": -469.01544189453125,
      "logps/rejected": -496.7162780761719,
      "loss": 0.6331,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.8822633028030396,
      "rewards/margins": 0.15627171099185944,
      "rewards/rejected": -2.0385348796844482,
      "step": 454
    },
    {
      "epoch": 0.9726118904475618,
      "grad_norm": 12.018897554978574,
      "learning_rate": 2.0128530023804656e-09,
      "logits/chosen": -0.6989326477050781,
      "logits/rejected": -0.7310012578964233,
      "logps/chosen": -407.86639404296875,
      "logps/rejected": -467.86798095703125,
      "loss": 0.5709,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.7583638429641724,
      "rewards/margins": 0.5012065172195435,
      "rewards/rejected": -2.2595701217651367,
      "step": 455
    },
    {
      "epoch": 0.974749498997996,
      "grad_norm": 12.451774147613516,
      "learning_rate": 1.6915370571756181e-09,
      "logits/chosen": -0.7267682552337646,
      "logits/rejected": -0.7152563333511353,
      "logps/chosen": -450.92230224609375,
      "logps/rejected": -483.6854248046875,
      "loss": 0.6282,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -1.7722840309143066,
      "rewards/margins": 0.15732887387275696,
      "rewards/rejected": -1.9296131134033203,
      "step": 456
    },
    {
      "epoch": 0.9768871075484302,
      "grad_norm": 12.126324151502713,
      "learning_rate": 1.3981014094099353e-09,
      "logits/chosen": -0.7544288635253906,
      "logits/rejected": -0.7525961995124817,
      "logps/chosen": -397.43109130859375,
      "logps/rejected": -431.8571472167969,
      "loss": 0.5846,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.4742791652679443,
      "rewards/margins": 0.3458634316921234,
      "rewards/rejected": -1.8201426267623901,
      "step": 457
    },
    {
      "epoch": 0.9790247160988644,
      "grad_norm": 9.907495266444734,
      "learning_rate": 1.1325624767719588e-09,
      "logits/chosen": -0.6586907505989075,
      "logits/rejected": -0.6237790584564209,
      "logps/chosen": -395.1099853515625,
      "logps/rejected": -438.49237060546875,
      "loss": 0.5992,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.5770848989486694,
      "rewards/margins": 0.40755948424339294,
      "rewards/rejected": -1.9846441745758057,
      "step": 458
    },
    {
      "epoch": 0.9811623246492986,
      "grad_norm": 13.123065251970033,
      "learning_rate": 8.949351161324225e-10,
      "logits/chosen": -0.6515368223190308,
      "logits/rejected": -0.6513477563858032,
      "logps/chosen": -411.0286560058594,
      "logps/rejected": -474.112548828125,
      "loss": 0.621,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.7529451847076416,
      "rewards/margins": 0.5362708568572998,
      "rewards/rejected": -2.2892158031463623,
      "step": 459
    },
    {
      "epoch": 0.9832999331997327,
      "grad_norm": 12.071426108415315,
      "learning_rate": 6.852326227130833e-10,
      "logits/chosen": -0.7456957697868347,
      "logits/rejected": -0.6752879023551941,
      "logps/chosen": -450.5098876953125,
      "logps/rejected": -455.85577392578125,
      "loss": 0.626,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.8361914157867432,
      "rewards/margins": 0.20122388005256653,
      "rewards/rejected": -2.037415027618408,
      "step": 460
    },
    {
      "epoch": 0.985437541750167,
      "grad_norm": 11.748757454977515,
      "learning_rate": 5.034667293427053e-10,
      "logits/chosen": -0.7174670696258545,
      "logits/rejected": -0.6987491250038147,
      "logps/chosen": -434.594482421875,
      "logps/rejected": -480.0499267578125,
      "loss": 0.6146,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -1.7917670011520386,
      "rewards/margins": 0.3851429224014282,
      "rewards/rejected": -2.176909923553467,
      "step": 461
    },
    {
      "epoch": 0.9875751503006012,
      "grad_norm": 20.824968125195323,
      "learning_rate": 3.4964760580069585e-10,
      "logits/chosen": -0.555869460105896,
      "logits/rejected": -0.5152798891067505,
      "logps/chosen": -407.359375,
      "logps/rejected": -415.696533203125,
      "loss": 0.6489,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -1.7928351163864136,
      "rewards/margins": 0.13394100964069366,
      "rewards/rejected": -1.9267761707305908,
      "step": 462
    },
    {
      "epoch": 0.9897127588510354,
      "grad_norm": 11.441495646450653,
      "learning_rate": 2.2378385824833866e-10,
      "logits/chosen": -0.7355363965034485,
      "logits/rejected": -0.727141261100769,
      "logps/chosen": -411.1090087890625,
      "logps/rejected": -475.9149475097656,
      "loss": 0.6229,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.861409068107605,
      "rewards/margins": 0.488926500082016,
      "rewards/rejected": -2.3503353595733643,
      "step": 463
    },
    {
      "epoch": 0.9918503674014696,
      "grad_norm": 11.714079308527252,
      "learning_rate": 1.2588252874673466e-10,
      "logits/chosen": -0.8587902784347534,
      "logits/rejected": -0.8111391663551331,
      "logps/chosen": -470.9283447265625,
      "logps/rejected": -455.00372314453125,
      "loss": 0.6381,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -1.885197639465332,
      "rewards/margins": 0.07718580961227417,
      "rewards/rejected": -1.9623833894729614,
      "step": 464
    },
    {
      "epoch": 0.9939879759519038,
      "grad_norm": 16.820068325011835,
      "learning_rate": 5.594909486328348e-11,
      "logits/chosen": -0.5276237726211548,
      "logits/rejected": -0.5462942123413086,
      "logps/chosen": -459.17626953125,
      "logps/rejected": -478.39056396484375,
      "loss": 0.6987,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.8299469947814941,
      "rewards/margins": 0.1971490979194641,
      "rewards/rejected": -2.0270960330963135,
      "step": 465
    },
    {
      "epoch": 0.996125584502338,
      "grad_norm": 10.981775368002003,
      "learning_rate": 1.3987469365095429e-11,
      "logits/chosen": -0.787868082523346,
      "logits/rejected": -0.8146266937255859,
      "logps/chosen": -463.4134826660156,
      "logps/rejected": -492.61859130859375,
      "loss": 0.5814,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.6699291467666626,
      "rewards/margins": 0.16003668308258057,
      "rewards/rejected": -1.8299658298492432,
      "step": 466
    },
    {
      "epoch": 0.9982631930527722,
      "grad_norm": 10.869184778690476,
      "learning_rate": 0.0,
      "logits/chosen": -0.7284511923789978,
      "logits/rejected": -0.7266198992729187,
      "logps/chosen": -403.50836181640625,
      "logps/rejected": -409.22369384765625,
      "loss": 0.6449,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.5633559226989746,
      "rewards/margins": 0.2905767261981964,
      "rewards/rejected": -1.8539327383041382,
      "step": 467
    },
    {
      "epoch": 0.9982631930527722,
      "step": 467,
      "total_flos": 0.0,
      "train_loss": 0.6321173631915189,
      "train_runtime": 21471.9268,
      "train_samples_per_second": 2.789,
      "train_steps_per_second": 0.022
    }
  ],
  "logging_steps": 1,
  "max_steps": 467,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}