{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9984301412872841,
  "eval_steps": 100,
  "global_step": 477,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 0.400390625,
      "learning_rate": 1.0416666666666667e-07,
      "logits/chosen": -2.2547454833984375,
      "logits/rejected": -2.401865005493164,
      "logps/chosen": -53.759212493896484,
      "logps/rejected": -48.83185958862305,
      "loss": 0.6931,
      "pred_label": 0.0,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1,
      "use_label": 0.0
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.4609375,
      "learning_rate": 1.0416666666666667e-06,
      "logits/chosen": -2.242556571960449,
      "logits/rejected": -2.277317762374878,
      "logps/chosen": -51.96327209472656,
      "logps/rejected": -64.98894500732422,
      "loss": 0.6929,
      "pred_label": 0.0,
      "rewards/accuracies": 0.2361111044883728,
      "rewards/chosen": 0.002160965697839856,
      "rewards/margins": 0.0009470728691667318,
      "rewards/rejected": 0.0012138929450884461,
      "step": 10,
      "use_label": 0.0
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.396484375,
      "learning_rate": 2.0833333333333334e-06,
      "logits/chosen": -2.252474784851074,
      "logits/rejected": -2.256141185760498,
      "logps/chosen": -62.50165557861328,
      "logps/rejected": -72.6328125,
      "loss": 0.6919,
      "pred_label": 0.0,
      "rewards/accuracies": 0.28125,
      "rewards/chosen": 0.01592240110039711,
      "rewards/margins": 0.001004441175609827,
      "rewards/rejected": 0.014917959459125996,
      "step": 20,
      "use_label": 0.0
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.51171875,
      "learning_rate": 3.125e-06,
      "logits/chosen": -2.342515468597412,
      "logits/rejected": -2.3552591800689697,
      "logps/chosen": -79.15455627441406,
      "logps/rejected": -98.8229751586914,
      "loss": 0.6898,
      "pred_label": 0.0,
      "rewards/accuracies": 0.2874999940395355,
      "rewards/chosen": 0.030873581767082214,
      "rewards/margins": 0.002844910603016615,
      "rewards/rejected": 0.02802867256104946,
      "step": 30,
      "use_label": 0.0
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.51953125,
      "learning_rate": 4.166666666666667e-06,
      "logits/chosen": -2.323695421218872,
      "logits/rejected": -2.3019304275512695,
      "logps/chosen": -82.8508071899414,
      "logps/rejected": -82.39540100097656,
      "loss": 0.6866,
      "pred_label": 0.0,
      "rewards/accuracies": 0.2874999940395355,
      "rewards/chosen": 0.033413294702768326,
      "rewards/margins": 0.011912978254258633,
      "rewards/rejected": 0.021500317379832268,
      "step": 40,
      "use_label": 0.0
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6640625,
      "learning_rate": 4.999731868769027e-06,
      "logits/chosen": -2.2408015727996826,
      "logits/rejected": -2.2638282775878906,
      "logps/chosen": -67.89698028564453,
      "logps/rejected": -81.84117126464844,
      "loss": 0.6805,
      "pred_label": 0.0,
      "rewards/accuracies": 0.32499998807907104,
      "rewards/chosen": 0.009338948875665665,
      "rewards/margins": 0.030354563146829605,
      "rewards/rejected": -0.02101561427116394,
      "step": 50,
      "use_label": 0.0
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.53125,
      "learning_rate": 4.9903533134293035e-06,
      "logits/chosen": -2.2194154262542725,
      "logits/rejected": -2.1603574752807617,
      "logps/chosen": -62.444313049316406,
      "logps/rejected": -72.18606567382812,
      "loss": 0.6753,
      "pred_label": 0.0,
      "rewards/accuracies": 0.30000001192092896,
      "rewards/chosen": -0.027180707082152367,
      "rewards/margins": 0.044989973306655884,
      "rewards/rejected": -0.072170689702034,
      "step": 60,
      "use_label": 0.0
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.84375,
      "learning_rate": 4.967625656594782e-06,
      "logits/chosen": -2.1111249923706055,
      "logits/rejected": -2.109537124633789,
      "logps/chosen": -62.041603088378906,
      "logps/rejected": -75.64030456542969,
      "loss": 0.666,
      "pred_label": 0.0,
      "rewards/accuracies": 0.25,
      "rewards/chosen": -0.06330498307943344,
      "rewards/margins": 0.03508424013853073,
      "rewards/rejected": -0.09838922321796417,
      "step": 70,
      "use_label": 0.0
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.03125,
      "learning_rate": 4.93167072587771e-06,
      "logits/chosen": -2.21980881690979,
      "logits/rejected": -2.1616053581237793,
      "logps/chosen": -60.844932556152344,
      "logps/rejected": -74.95368957519531,
      "loss": 0.66,
      "pred_label": 0.0,
      "rewards/accuracies": 0.26249998807907104,
      "rewards/chosen": -0.12314031273126602,
      "rewards/margins": 0.0946219339966774,
      "rewards/rejected": -0.21776223182678223,
      "step": 80,
      "use_label": 0.0
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5390625,
      "learning_rate": 4.882681251368549e-06,
      "logits/chosen": -2.109405279159546,
      "logits/rejected": -2.1181578636169434,
      "logps/chosen": -77.24811553955078,
      "logps/rejected": -95.32093811035156,
      "loss": 0.6621,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3062500059604645,
      "rewards/chosen": -0.1886606067419052,
      "rewards/margins": 0.07690713554620743,
      "rewards/rejected": -0.26556771993637085,
      "step": 90,
      "use_label": 0.0
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.1640625,
      "learning_rate": 4.8209198325401815e-06,
      "logits/chosen": -2.1972146034240723,
      "logits/rejected": -2.169661283493042,
      "logps/chosen": -92.16123962402344,
      "logps/rejected": -84.31734466552734,
      "loss": 0.6553,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3499999940395355,
      "rewards/chosen": -0.12131345272064209,
      "rewards/margins": 0.08319222182035446,
      "rewards/rejected": -0.20450565218925476,
      "step": 100,
      "use_label": 0.0
    },
    {
      "epoch": 0.21,
      "eval_logits/chosen": -2.0832693576812744,
      "eval_logits/rejected": -2.0725808143615723,
      "eval_logps/chosen": -76.57865905761719,
      "eval_logps/rejected": -104.04773712158203,
      "eval_loss": 0.6557236313819885,
      "eval_pred_label": 0.0,
      "eval_rewards/accuracies": 0.36328125,
      "eval_rewards/chosen": -0.12666408717632294,
      "eval_rewards/margins": 0.14188387989997864,
      "eval_rewards/rejected": -0.26854798197746277,
      "eval_runtime": 125.5075,
      "eval_samples_per_second": 15.935,
      "eval_steps_per_second": 0.255,
      "eval_use_label": 0.0,
      "step": 100
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.1484375,
      "learning_rate": 4.746717530629565e-06,
      "logits/chosen": -2.125093460083008,
      "logits/rejected": -2.108320713043213,
      "logps/chosen": -86.47650146484375,
      "logps/rejected": -108.77266693115234,
      "loss": 0.6536,
      "pred_label": 0.0,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.1537572741508484,
      "rewards/margins": 0.14806225895881653,
      "rewards/rejected": -0.3018195331096649,
      "step": 110,
      "use_label": 0.0
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.5390625,
      "learning_rate": 4.660472094042121e-06,
      "logits/chosen": -1.9497900009155273,
      "logits/rejected": -1.8884683847427368,
      "logps/chosen": -95.01170349121094,
      "logps/rejected": -114.40583801269531,
      "loss": 0.652,
      "pred_label": 0.0,
      "rewards/accuracies": 0.36250001192092896,
      "rewards/chosen": -0.2506612241268158,
      "rewards/margins": 0.16420678794384003,
      "rewards/rejected": -0.414868026971817,
      "step": 120,
      "use_label": 0.0
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.9296875,
      "learning_rate": 4.5626458262912745e-06,
      "logits/chosen": -1.7961517572402954,
      "logits/rejected": -1.7706302404403687,
      "logps/chosen": -90.99502563476562,
      "logps/rejected": -112.71142578125,
      "loss": 0.654,
      "pred_label": 0.0,
      "rewards/accuracies": 0.34375,
      "rewards/chosen": -0.2521664500236511,
      "rewards/margins": 0.1464831829071045,
      "rewards/rejected": -0.3986496329307556,
      "step": 130,
      "use_label": 0.0
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.9921875,
      "learning_rate": 4.453763107901676e-06,
      "logits/chosen": -1.7561969757080078,
      "logits/rejected": -1.796431541442871,
      "logps/chosen": -96.94844818115234,
      "logps/rejected": -107.52276611328125,
      "loss": 0.6488,
      "pred_label": 0.0,
      "rewards/accuracies": 0.26875001192092896,
      "rewards/chosen": -0.1620088815689087,
      "rewards/margins": 0.12216176092624664,
      "rewards/rejected": -0.28417062759399414,
      "step": 140,
      "use_label": 0.0
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.7578125,
      "learning_rate": 4.33440758555951e-06,
      "logits/chosen": -1.7516326904296875,
      "logits/rejected": -1.7187411785125732,
      "logps/chosen": -78.70259857177734,
      "logps/rejected": -104.34063720703125,
      "loss": 0.6451,
      "pred_label": 0.0,
      "rewards/accuracies": 0.32499998807907104,
      "rewards/chosen": -0.13555890321731567,
      "rewards/margins": 0.22945857048034668,
      "rewards/rejected": -0.36501747369766235,
      "step": 150,
      "use_label": 0.0
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.640625,
      "learning_rate": 4.205219043576955e-06,
      "logits/chosen": -1.481575608253479,
      "logits/rejected": -1.468014121055603,
      "logps/chosen": -100.68672180175781,
      "logps/rejected": -127.04164123535156,
      "loss": 0.6442,
      "pred_label": 0.0,
      "rewards/accuracies": 0.29374998807907104,
      "rewards/chosen": -0.36356669664382935,
      "rewards/margins": 0.1327240914106369,
      "rewards/rejected": -0.49629077315330505,
      "step": 160,
      "use_label": 0.0
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.390625,
      "learning_rate": 4.066889974440757e-06,
      "logits/chosen": -0.9005377888679504,
      "logits/rejected": -0.8864371180534363,
      "logps/chosen": -85.81999206542969,
      "logps/rejected": -110.4801254272461,
      "loss": 0.6339,
      "pred_label": 0.0,
      "rewards/accuracies": 0.30000001192092896,
      "rewards/chosen": -0.3031192421913147,
      "rewards/margins": 0.1594724804162979,
      "rewards/rejected": -0.4625917375087738,
      "step": 170,
      "use_label": 0.0
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.78125,
      "learning_rate": 3.92016186682789e-06,
      "logits/chosen": -0.591436505317688,
      "logits/rejected": -0.5489451885223389,
      "logps/chosen": -103.7041015625,
      "logps/rejected": -123.32816314697266,
      "loss": 0.6554,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3375000059604645,
      "rewards/chosen": -0.40916457772254944,
      "rewards/margins": 0.2612735629081726,
      "rewards/rejected": -0.6704381108283997,
      "step": 180,
      "use_label": 0.0
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.09375,
      "learning_rate": 3.7658212309857576e-06,
      "logits/chosen": -0.801749587059021,
      "logits/rejected": -0.588916003704071,
      "logps/chosen": -96.86283874511719,
      "logps/rejected": -123.17811584472656,
      "loss": 0.6508,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3062500059604645,
      "rewards/chosen": -0.37751203775405884,
      "rewards/margins": 0.21026258170604706,
      "rewards/rejected": -0.5877746343612671,
      "step": 190,
      "use_label": 0.0
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.59375,
      "learning_rate": 3.604695382782159e-06,
      "logits/chosen": -1.114527940750122,
      "logits/rejected": -1.0130901336669922,
      "logps/chosen": -111.54571533203125,
      "logps/rejected": -115.97926330566406,
      "loss": 0.6446,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3187499940395355,
      "rewards/chosen": -0.2986941933631897,
      "rewards/margins": 0.1296522319316864,
      "rewards/rejected": -0.4283464550971985,
      "step": 200,
      "use_label": 0.0
    },
    {
      "epoch": 0.42,
      "eval_logits/chosen": -0.7123901844024658,
      "eval_logits/rejected": -0.6864092350006104,
      "eval_logps/chosen": -92.6377182006836,
      "eval_logps/rejected": -130.9503173828125,
      "eval_loss": 0.6342783570289612,
      "eval_pred_label": 0.0,
      "eval_rewards/accuracies": 0.3828125,
      "eval_rewards/chosen": -0.28725457191467285,
      "eval_rewards/margins": 0.250319242477417,
      "eval_rewards/rejected": -0.5375738143920898,
      "eval_runtime": 125.6586,
      "eval_samples_per_second": 15.916,
      "eval_steps_per_second": 0.255,
      "eval_use_label": 0.0,
      "step": 200
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.140625,
      "learning_rate": 3.437648009023905e-06,
      "logits/chosen": -0.6364002227783203,
      "logits/rejected": -0.629191517829895,
      "logps/chosen": -79.12034606933594,
      "logps/rejected": -109.35395812988281,
      "loss": 0.6319,
      "pred_label": 0.0,
      "rewards/accuracies": 0.35624998807907104,
      "rewards/chosen": -0.23145589232444763,
      "rewards/margins": 0.2322908192873001,
      "rewards/rejected": -0.46374672651290894,
      "step": 210,
      "use_label": 0.0
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.453125,
      "learning_rate": 3.265574537815398e-06,
      "logits/chosen": -0.24914255738258362,
      "logits/rejected": -0.12895795702934265,
      "logps/chosen": -123.09925842285156,
      "logps/rejected": -127.96968078613281,
      "loss": 0.633,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3187499940395355,
      "rewards/chosen": -0.43470579385757446,
      "rewards/margins": 0.1813107430934906,
      "rewards/rejected": -0.6160165071487427,
      "step": 220,
      "use_label": 0.0
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.734375,
      "learning_rate": 3.089397338773569e-06,
      "logits/chosen": 0.08423249423503876,
      "logits/rejected": 0.1725344955921173,
      "logps/chosen": -98.91605377197266,
      "logps/rejected": -125.9875259399414,
      "loss": 0.6278,
      "pred_label": 0.0,
      "rewards/accuracies": 0.33125001192092896,
      "rewards/chosen": -0.3448147773742676,
      "rewards/margins": 0.287472665309906,
      "rewards/rejected": -0.6322874426841736,
      "step": 230,
      "use_label": 0.0
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.015625,
      "learning_rate": 2.9100607788275547e-06,
      "logits/chosen": 0.48232460021972656,
      "logits/rejected": 0.39376580715179443,
      "logps/chosen": -108.98759460449219,
      "logps/rejected": -142.29344177246094,
      "loss": 0.6294,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3812499940395355,
      "rewards/chosen": -0.39955058693885803,
      "rewards/margins": 0.28114694356918335,
      "rewards/rejected": -0.680697500705719,
      "step": 240,
      "use_label": 0.0
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.25,
      "learning_rate": 2.72852616010567e-06,
      "logits/chosen": 0.35806649923324585,
      "logits/rejected": 0.41671887040138245,
      "logps/chosen": -126.65348052978516,
      "logps/rejected": -151.3179168701172,
      "loss": 0.6419,
      "pred_label": 0.0,
      "rewards/accuracies": 0.36250001192092896,
      "rewards/chosen": -0.5325437784194946,
      "rewards/margins": 0.28831106424331665,
      "rewards/rejected": -0.8208548426628113,
      "step": 250,
      "use_label": 0.0
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.46875,
      "learning_rate": 2.5457665670441937e-06,
      "logits/chosen": 0.4644729197025299,
      "logits/rejected": 0.45051756501197815,
      "logps/chosen": -110.62007904052734,
      "logps/rejected": -142.76722717285156,
      "loss": 0.6232,
      "pred_label": 0.0,
      "rewards/accuracies": 0.32499998807907104,
      "rewards/chosen": -0.4451447129249573,
      "rewards/margins": 0.2380482256412506,
      "rewards/rejected": -0.6831929087638855,
      "step": 260,
      "use_label": 0.0
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.4375,
      "learning_rate": 2.3627616503391813e-06,
      "logits/chosen": 0.6336380839347839,
      "logits/rejected": 0.5556719303131104,
      "logps/chosen": -116.7416000366211,
      "logps/rejected": -135.33096313476562,
      "loss": 0.6174,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3375000059604645,
      "rewards/chosen": -0.43825817108154297,
      "rewards/margins": 0.22129836678504944,
      "rewards/rejected": -0.65955650806427,
      "step": 270,
      "use_label": 0.0
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.0625,
      "learning_rate": 2.1804923757009885e-06,
      "logits/chosen": 0.6383472681045532,
      "logits/rejected": 0.7697634100914001,
      "logps/chosen": -106.45858001708984,
      "logps/rejected": -125.5028305053711,
      "loss": 0.6353,
      "pred_label": 0.0,
      "rewards/accuracies": 0.30000001192092896,
      "rewards/chosen": -0.4095306992530823,
      "rewards/margins": 0.21630148589611053,
      "rewards/rejected": -0.625832200050354,
      "step": 280,
      "use_label": 0.0
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.328125,
      "learning_rate": 1.9999357655598894e-06,
      "logits/chosen": 0.1407470554113388,
      "logits/rejected": 0.12877413630485535,
      "logps/chosen": -108.0340805053711,
      "logps/rejected": -136.49562072753906,
      "loss": 0.6265,
      "pred_label": 0.0,
      "rewards/accuracies": 0.30000001192092896,
      "rewards/chosen": -0.41485634446144104,
      "rewards/margins": 0.18648667633533478,
      "rewards/rejected": -0.601343035697937,
      "step": 290,
      "use_label": 0.0
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.03125,
      "learning_rate": 1.8220596619089576e-06,
      "logits/chosen": 0.4002162516117096,
      "logits/rejected": 0.25351682305336,
      "logps/chosen": -127.95108795166016,
      "logps/rejected": -172.98793029785156,
      "loss": 0.6273,
      "pred_label": 0.0,
      "rewards/accuracies": 0.4124999940395355,
      "rewards/chosen": -0.5035675168037415,
      "rewards/margins": 0.2851078510284424,
      "rewards/rejected": -0.7886753678321838,
      "step": 300,
      "use_label": 0.0
    },
    {
      "epoch": 0.63,
      "eval_logits/chosen": 0.6280341148376465,
      "eval_logits/rejected": 0.6725929379463196,
      "eval_logps/chosen": -110.14692687988281,
      "eval_logps/rejected": -157.1332244873047,
      "eval_loss": 0.620426595211029,
      "eval_pred_label": 0.0,
      "eval_rewards/accuracies": 0.3671875,
      "eval_rewards/chosen": -0.46234679222106934,
      "eval_rewards/margins": 0.33705610036849976,
      "eval_rewards/rejected": -0.7994028329849243,
      "eval_runtime": 125.7299,
      "eval_samples_per_second": 15.907,
      "eval_steps_per_second": 0.255,
      "eval_use_label": 0.0,
      "step": 300
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.390625,
      "learning_rate": 1.647817538357072e-06,
      "logits/chosen": 0.33872538805007935,
      "logits/rejected": 0.3415250778198242,
      "logps/chosen": -95.08795166015625,
      "logps/rejected": -142.95713806152344,
      "loss": 0.6014,
      "pred_label": 0.0,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.39491352438926697,
      "rewards/margins": 0.35215410590171814,
      "rewards/rejected": -0.7470676302909851,
      "step": 310,
      "use_label": 0.0
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.546875,
      "learning_rate": 1.4781433892011132e-06,
      "logits/chosen": 0.2642754018306732,
      "logits/rejected": 0.4063233435153961,
      "logps/chosen": -131.07791137695312,
      "logps/rejected": -164.12667846679688,
      "loss": 0.6133,
      "pred_label": 0.0,
      "rewards/accuracies": 0.38749998807907104,
      "rewards/chosen": -0.580074667930603,
      "rewards/margins": 0.38923436403274536,
      "rewards/rejected": -0.9693089723587036,
      "step": 320,
      "use_label": 0.0
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.15625,
      "learning_rate": 1.3139467229135999e-06,
      "logits/chosen": 0.5224499106407166,
      "logits/rejected": 0.5213581919670105,
      "logps/chosen": -130.00186157226562,
      "logps/rejected": -156.6516876220703,
      "loss": 0.6387,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3375000059604645,
      "rewards/chosen": -0.5989372134208679,
      "rewards/margins": 0.2814994752407074,
      "rewards/rejected": -0.8804367184638977,
      "step": 330,
      "use_label": 0.0
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.28125,
      "learning_rate": 1.1561076868822756e-06,
      "logits/chosen": 0.1671726554632187,
      "logits/rejected": 0.0974355936050415,
      "logps/chosen": -140.3222198486328,
      "logps/rejected": -155.46217346191406,
      "loss": 0.6252,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3375000059604645,
      "rewards/chosen": -0.5558302998542786,
      "rewards/margins": 0.23368898034095764,
      "rewards/rejected": -0.7895193099975586,
      "step": 340,
      "use_label": 0.0
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.328125,
      "learning_rate": 1.0054723495346484e-06,
      "logits/chosen": 0.081739641726017,
      "logits/rejected": 0.08175826817750931,
      "logps/chosen": -150.41506958007812,
      "logps/rejected": -178.51565551757812,
      "loss": 0.6231,
      "pred_label": 0.0,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.6099845170974731,
      "rewards/margins": 0.322490930557251,
      "rewards/rejected": -0.9324753880500793,
      "step": 350,
      "use_label": 0.0
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.875,
      "learning_rate": 8.628481651367876e-07,
      "logits/chosen": 0.12279005348682404,
      "logits/rejected": 0.20824797451496124,
      "logps/chosen": -110.51042175292969,
      "logps/rejected": -153.92698669433594,
      "loss": 0.6186,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3687500059604645,
      "rewards/chosen": -0.46872806549072266,
      "rewards/margins": 0.3482593894004822,
      "rewards/rejected": -0.8169875144958496,
      "step": 360,
      "use_label": 0.0
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.15625,
      "learning_rate": 7.289996455765749e-07,
      "logits/chosen": 0.19759848713874817,
      "logits/rejected": 0.29472407698631287,
      "logps/chosen": -103.1863021850586,
      "logps/rejected": -143.578125,
      "loss": 0.6166,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3687500059604645,
      "rewards/chosen": -0.37751519680023193,
      "rewards/margins": 0.37911203503608704,
      "rewards/rejected": -0.7566272020339966,
      "step": 370,
      "use_label": 0.0
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.96875,
      "learning_rate": 6.046442623320145e-07,
      "logits/chosen": 0.03893072158098221,
      "logits/rejected": 0.019468214362859726,
      "logps/chosen": -108.17799377441406,
      "logps/rejected": -158.08056640625,
      "loss": 0.6183,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3187499940395355,
      "rewards/chosen": -0.42342591285705566,
      "rewards/margins": 0.2937392592430115,
      "rewards/rejected": -0.7171651124954224,
      "step": 380,
      "use_label": 0.0
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.59375,
      "learning_rate": 4.904486005914027e-07,
      "logits/chosen": 0.33429718017578125,
      "logits/rejected": 0.08158789575099945,
      "logps/chosen": -151.29055786132812,
      "logps/rejected": -180.48861694335938,
      "loss": 0.6114,
      "pred_label": 0.0,
      "rewards/accuracies": 0.39375001192092896,
      "rewards/chosen": -0.5847219824790955,
      "rewards/margins": 0.3904651999473572,
      "rewards/rejected": -0.9751871824264526,
      "step": 390,
      "use_label": 0.0
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.015625,
      "learning_rate": 3.8702478614051353e-07,
      "logits/chosen": 0.126608207821846,
      "logits/rejected": 0.2576550841331482,
      "logps/chosen": -109.39167785644531,
      "logps/rejected": -134.27053833007812,
      "loss": 0.6165,
      "pred_label": 0.0,
      "rewards/accuracies": 0.38749998807907104,
      "rewards/chosen": -0.36900678277015686,
      "rewards/margins": 0.3390708863735199,
      "rewards/rejected": -0.708077609539032,
      "step": 400,
      "use_label": 0.0
    },
    {
      "epoch": 0.84,
      "eval_logits/chosen": 0.903490424156189,
      "eval_logits/rejected": 0.958048939704895,
      "eval_logps/chosen": -108.47840881347656,
      "eval_logps/rejected": -158.4149169921875,
      "eval_loss": 0.6182093620300293,
      "eval_pred_label": 0.0,
      "eval_rewards/accuracies": 0.3671875,
      "eval_rewards/chosen": -0.4456615447998047,
      "eval_rewards/margins": 0.3665582537651062,
      "eval_rewards/rejected": -0.8122197389602661,
      "eval_runtime": 125.7278,
      "eval_samples_per_second": 15.907,
      "eval_steps_per_second": 0.255,
      "eval_use_label": 0.0,
      "step": 400
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.046875,
      "learning_rate": 2.9492720416985004e-07,
      "logits/chosen": 0.39335688948631287,
      "logits/rejected": 0.41703349351882935,
      "logps/chosen": -106.9058837890625,
      "logps/rejected": -138.57296752929688,
      "loss": 0.6272,
      "pred_label": 0.0,
      "rewards/accuracies": 0.36250001192092896,
      "rewards/chosen": -0.45482879877090454,
      "rewards/margins": 0.3337084650993347,
      "rewards/rejected": -0.788537323474884,
      "step": 410,
      "use_label": 0.0
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.078125,
      "learning_rate": 2.1464952759020857e-07,
      "logits/chosen": 0.5264393091201782,
      "logits/rejected": 0.4952784478664398,
      "logps/chosen": -104.27522277832031,
      "logps/rejected": -112.507080078125,
      "loss": 0.6235,
      "pred_label": 0.0,
      "rewards/accuracies": 0.2750000059604645,
      "rewards/chosen": -0.4333609640598297,
      "rewards/margins": 0.1778794825077057,
      "rewards/rejected": -0.6112405061721802,
      "step": 420,
      "use_label": 0.0
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.734375,
      "learning_rate": 1.4662207078575685e-07,
      "logits/chosen": 0.47332754731178284,
      "logits/rejected": 0.4613571763038635,
      "logps/chosen": -144.65744018554688,
      "logps/rejected": -170.08921813964844,
      "loss": 0.5988,
      "pred_label": 0.0,
      "rewards/accuracies": 0.45625001192092896,
      "rewards/chosen": -0.4539059102535248,
      "rewards/margins": 0.4534150958061218,
      "rewards/rejected": -0.9073210954666138,
      "step": 430,
      "use_label": 0.0
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9609375,
      "learning_rate": 9.120948298936422e-08,
      "logits/chosen": 0.48202329874038696,
      "logits/rejected": 0.6259401440620422,
      "logps/chosen": -114.15118408203125,
      "logps/rejected": -161.5361785888672,
      "loss": 0.6098,
      "pred_label": 0.0,
      "rewards/accuracies": 0.36250001192092896,
      "rewards/chosen": -0.4724721908569336,
      "rewards/margins": 0.39225998520851135,
      "rewards/rejected": -0.8647321462631226,
      "step": 440,
      "use_label": 0.0
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.265625,
      "learning_rate": 4.870879364444109e-08,
      "logits/chosen": 0.8100695610046387,
      "logits/rejected": 0.5903851389884949,
      "logps/chosen": -126.81998443603516,
      "logps/rejected": -174.6106719970703,
      "loss": 0.6122,
      "pred_label": 0.0,
      "rewards/accuracies": 0.36250001192092896,
      "rewards/chosen": -0.5456215739250183,
      "rewards/margins": 0.3175886273384094,
      "rewards/rejected": -0.8632103204727173,
      "step": 450,
      "use_label": 0.0
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.140625,
      "learning_rate": 1.93478202307823e-08,
      "logits/chosen": 0.7001665830612183,
      "logits/rejected": 0.7000536322593689,
      "logps/chosen": -80.71357727050781,
      "logps/rejected": -126.110595703125,
      "loss": 0.6182,
      "pred_label": 0.0,
      "rewards/accuracies": 0.32499998807907104,
      "rewards/chosen": -0.3459371328353882,
      "rewards/margins": 0.2817174792289734,
      "rewards/rejected": -0.6276546716690063,
      "step": 460,
      "use_label": 0.0
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.78125,
      "learning_rate": 3.283947088983663e-09,
      "logits/chosen": 0.7130995392799377,
      "logits/rejected": 0.5145190954208374,
      "logps/chosen": -110.40830993652344,
      "logps/rejected": -137.49429321289062,
      "loss": 0.6251,
      "pred_label": 0.0,
      "rewards/accuracies": 0.3125,
      "rewards/chosen": -0.43079155683517456,
      "rewards/margins": 0.25358152389526367,
      "rewards/rejected": -0.6843730211257935,
      "step": 470,
      "use_label": 0.0
    },
    {
      "epoch": 1.0,
      "step": 477,
      "total_flos": 0.0,
      "train_loss": 0.6389844682481554,
      "train_runtime": 9615.2592,
      "train_samples_per_second": 6.358,
      "train_steps_per_second": 0.05
    }
  ],
  "logging_steps": 10,
  "max_steps": 477,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "total_flos": 0.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}