{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 100,
  "global_step": 478,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 1.0416666666666666e-08,
      "logits/chosen": -2.7386245727539062,
      "logits/rejected": -2.7273669242858887,
      "logps/chosen": -262.8376159667969,
      "logps/rejected": -255.88758850097656,
      "loss": 0.1038,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1
    },
    {
      "epoch": 0.02,
      "learning_rate": 1.0416666666666667e-07,
      "logits/chosen": -2.7419047355651855,
      "logits/rejected": -2.7360031604766846,
      "logps/chosen": -305.9395446777344,
      "logps/rejected": -270.57177734375,
      "loss": 0.1063,
      "rewards/accuracies": 0.5138888955116272,
      "rewards/chosen": 0.0002741153002716601,
      "rewards/margins": 0.0006307306466624141,
      "rewards/rejected": -0.00035661537549458444,
      "step": 10
    },
    {
      "epoch": 0.04,
      "learning_rate": 2.0833333333333333e-07,
      "logits/chosen": -2.7987372875213623,
      "logits/rejected": -2.779291868209839,
      "logps/chosen": -296.0432434082031,
      "logps/rejected": -258.17041015625,
      "loss": 0.1055,
      "rewards/accuracies": 0.5562499761581421,
      "rewards/chosen": 2.8045265935361385e-05,
      "rewards/margins": 0.0010506389662623405,
      "rewards/rejected": -0.001022593816742301,
      "step": 20
    },
    {
      "epoch": 0.06,
      "learning_rate": 3.1249999999999997e-07,
      "logits/chosen": -2.83036470413208,
      "logits/rejected": -2.802358627319336,
      "logps/chosen": -300.7704162597656,
      "logps/rejected": -259.5246276855469,
      "loss": 0.1044,
      "rewards/accuracies": 0.643750011920929,
      "rewards/chosen": -0.0002994390088133514,
      "rewards/margins": 0.0064557394944131374,
      "rewards/rejected": -0.006755178328603506,
      "step": 30
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.1666666666666667e-07,
      "logits/chosen": -2.7836341857910156,
      "logits/rejected": -2.757286310195923,
      "logps/chosen": -257.14385986328125,
      "logps/rejected": -248.82925415039062,
      "loss": 0.0977,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.001975560560822487,
      "rewards/margins": 0.018592100590467453,
      "rewards/rejected": -0.02056765928864479,
      "step": 40
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.999733114418725e-07,
      "logits/chosen": -2.773463726043701,
      "logits/rejected": -2.75862979888916,
      "logps/chosen": -255.62783813476562,
      "logps/rejected": -247.96707153320312,
      "loss": 0.092,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.023576391860842705,
      "rewards/margins": 0.053500402718782425,
      "rewards/rejected": -0.07707679271697998,
      "step": 50
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.990398100856366e-07,
      "logits/chosen": -2.7168498039245605,
      "logits/rejected": -2.684145450592041,
      "logps/chosen": -265.1424255371094,
      "logps/rejected": -254.54867553710938,
      "loss": 0.0899,
      "rewards/accuracies": 0.668749988079071,
      "rewards/chosen": -0.08215885609388351,
      "rewards/margins": 0.07760664075613022,
      "rewards/rejected": -0.15976549685001373,
      "step": 60
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.967775735898179e-07,
      "logits/chosen": -2.741403341293335,
      "logits/rejected": -2.7200100421905518,
      "logps/chosen": -289.6435852050781,
      "logps/rejected": -287.03662109375,
      "loss": 0.0779,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -0.1611556112766266,
      "rewards/margins": 0.1475805938243866,
      "rewards/rejected": -0.3087361752986908,
      "step": 70
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.931986719649298e-07,
      "logits/chosen": -2.7668230533599854,
      "logits/rejected": -2.7418100833892822,
      "logps/chosen": -306.257568359375,
      "logps/rejected": -304.8079833984375,
      "loss": 0.0713,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.28854140639305115,
      "rewards/margins": 0.16743852198123932,
      "rewards/rejected": -0.45597997307777405,
      "step": 80
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.883222001996351e-07,
      "logits/chosen": -2.7547733783721924,
      "logits/rejected": -2.7255868911743164,
      "logps/chosen": -280.0272216796875,
      "logps/rejected": -278.74127197265625,
      "loss": 0.0594,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.3458347022533417,
      "rewards/margins": 0.24216556549072266,
      "rewards/rejected": -0.5880002975463867,
      "step": 90
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.821741763807186e-07,
      "logits/chosen": -2.6905529499053955,
      "logits/rejected": -2.6901133060455322,
      "logps/chosen": -340.79461669921875,
      "logps/rejected": -338.3218688964844,
      "loss": 0.0486,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.6042592525482178,
      "rewards/margins": 0.2673302888870239,
      "rewards/rejected": -0.8715896606445312,
      "step": 100
    },
    {
      "epoch": 0.21,
      "eval_logits/chosen": -2.732572317123413,
      "eval_logits/rejected": -2.717289686203003,
      "eval_logps/chosen": -324.24517822265625,
      "eval_logps/rejected": -360.8448791503906,
      "eval_loss": 0.04314277693629265,
      "eval_rewards/accuracies": 0.6875,
      "eval_rewards/chosen": -0.6720553636550903,
      "eval_rewards/margins": 0.3628607988357544,
      "eval_rewards/rejected": -1.0349161624908447,
      "eval_runtime": 53.2647,
      "eval_samples_per_second": 37.548,
      "eval_steps_per_second": 0.601,
      "step": 100
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.747874028753375e-07,
      "logits/chosen": -2.720991373062134,
      "logits/rejected": -2.688431978225708,
      "logps/chosen": -372.272705078125,
      "logps/rejected": -368.93316650390625,
      "loss": 0.0429,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": -0.7657500505447388,
      "rewards/margins": 0.34390324354171753,
      "rewards/rejected": -1.109653353691101,
      "step": 110
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.662012913161997e-07,
      "logits/chosen": -2.6478002071380615,
      "logits/rejected": -2.6571507453918457,
      "logps/chosen": -302.8161315917969,
      "logps/rejected": -345.29022216796875,
      "loss": 0.0369,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.7161726951599121,
      "rewards/margins": 0.4097130298614502,
      "rewards/rejected": -1.1258857250213623,
      "step": 120
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.5646165232345103e-07,
      "logits/chosen": -2.6481852531433105,
      "logits/rejected": -2.6323132514953613,
      "logps/chosen": -315.4286804199219,
      "logps/rejected": -349.3882751464844,
      "loss": 0.0366,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": -0.7872930765151978,
      "rewards/margins": 0.33242180943489075,
      "rewards/rejected": -1.1197148561477661,
      "step": 130
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.456204510851956e-07,
      "logits/chosen": -2.6520018577575684,
      "logits/rejected": -2.6314806938171387,
      "logps/chosen": -349.292236328125,
      "logps/rejected": -358.19696044921875,
      "loss": 0.0328,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": -0.8543764352798462,
      "rewards/margins": 0.41757732629776,
      "rewards/rejected": -1.271953821182251,
      "step": 140
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.337355301007335e-07,
      "logits/chosen": -2.5678088665008545,
      "logits/rejected": -2.561540126800537,
      "logps/chosen": -360.6986999511719,
      "logps/rejected": -373.29876708984375,
      "loss": 0.0346,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": -0.9629270434379578,
      "rewards/margins": 0.4645315110683441,
      "rewards/rejected": -1.4274585247039795,
      "step": 150
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.2087030056579986e-07,
      "logits/chosen": -2.510655641555786,
      "logits/rejected": -2.5043094158172607,
      "logps/chosen": -390.89556884765625,
      "logps/rejected": -418.712646484375,
      "loss": 0.0284,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": -1.16335129737854,
      "rewards/margins": 0.5290186405181885,
      "rewards/rejected": -1.692370057106018,
      "step": 160
    },
    {
      "epoch": 0.36,
      "learning_rate": 4.070934040463998e-07,
      "logits/chosen": -2.5995492935180664,
      "logits/rejected": -2.5737595558166504,
      "logps/chosen": -412.41259765625,
      "logps/rejected": -393.64605712890625,
      "loss": 0.0321,
      "rewards/accuracies": 0.706250011920929,
      "rewards/chosen": -0.8894079327583313,
      "rewards/margins": 0.48425012826919556,
      "rewards/rejected": -1.3736579418182373,
      "step": 170
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.9247834624635404e-07,
      "logits/chosen": -2.5762248039245605,
      "logits/rejected": -2.5727803707122803,
      "logps/chosen": -357.29132080078125,
      "logps/rejected": -409.08453369140625,
      "loss": 0.0305,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -0.9876778721809387,
      "rewards/margins": 0.4671412408351898,
      "rewards/rejected": -1.4548190832138062,
      "step": 180
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.7710310482256523e-07,
      "logits/chosen": -2.4623260498046875,
      "logits/rejected": -2.4131171703338623,
      "logps/chosen": -391.2403564453125,
      "logps/rejected": -413.74554443359375,
      "loss": 0.0281,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": -1.1796742677688599,
      "rewards/margins": 0.40752944350242615,
      "rewards/rejected": -1.5872037410736084,
      "step": 190
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.610497133404795e-07,
      "logits/chosen": -2.451063394546509,
      "logits/rejected": -2.4568967819213867,
      "logps/chosen": -348.5596618652344,
      "logps/rejected": -400.4520263671875,
      "loss": 0.027,
      "rewards/accuracies": 0.643750011920929,
      "rewards/chosen": -1.1439893245697021,
      "rewards/margins": 0.4998703896999359,
      "rewards/rejected": -1.64385986328125,
      "step": 200
    },
    {
      "epoch": 0.42,
      "eval_logits/chosen": -2.5091135501861572,
      "eval_logits/rejected": -2.4957656860351562,
      "eval_logps/chosen": -366.6208190917969,
      "eval_logps/rejected": -425.7963562011719,
      "eval_loss": 0.02966611087322235,
      "eval_rewards/accuracies": 0.6953125,
      "eval_rewards/chosen": -1.0958118438720703,
      "eval_rewards/margins": 0.5886186957359314,
      "eval_rewards/rejected": -1.6844305992126465,
      "eval_runtime": 53.1867,
      "eval_samples_per_second": 37.603,
      "eval_steps_per_second": 0.602,
      "step": 200
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.4440382358952115e-07,
      "logits/chosen": -2.4863812923431396,
      "logits/rejected": -2.407597780227661,
      "logps/chosen": -417.18634033203125,
      "logps/rejected": -401.4176025390625,
      "loss": 0.0316,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -1.203452467918396,
      "rewards/margins": 0.41743287444114685,
      "rewards/rejected": -1.6208854913711548,
      "step": 210
    },
    {
      "epoch": 0.46,
      "learning_rate": 3.272542485937368e-07,
      "logits/chosen": -2.5017166137695312,
      "logits/rejected": -2.444180965423584,
      "logps/chosen": -391.02996826171875,
      "logps/rejected": -405.67987060546875,
      "loss": 0.029,
      "rewards/accuracies": 0.706250011920929,
      "rewards/chosen": -1.1130907535552979,
      "rewards/margins": 0.5619007349014282,
      "rewards/rejected": -1.6749913692474365,
      "step": 220
    },
    {
      "epoch": 0.48,
      "learning_rate": 3.096924887558854e-07,
      "logits/chosen": -2.5100924968719482,
      "logits/rejected": -2.4785008430480957,
      "logps/chosen": -392.33062744140625,
      "logps/rejected": -428.2881774902344,
      "loss": 0.029,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.0476332902908325,
      "rewards/margins": 0.6075866222381592,
      "rewards/rejected": -1.6552197933197021,
      "step": 230
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.9181224366319943e-07,
      "logits/chosen": -2.4946725368499756,
      "logits/rejected": -2.490581512451172,
      "logps/chosen": -392.0195007324219,
      "logps/rejected": -388.649169921875,
      "loss": 0.0315,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": -0.875754177570343,
      "rewards/margins": 0.5238613486289978,
      "rewards/rejected": -1.3996155261993408,
      "step": 240
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.7370891215954565e-07,
      "logits/chosen": -2.431591272354126,
      "logits/rejected": -2.410667896270752,
      "logps/chosen": -353.4183654785156,
      "logps/rejected": -399.400146484375,
      "loss": 0.0286,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.0008418560028076,
      "rewards/margins": 0.5946453809738159,
      "rewards/rejected": -1.595487356185913,
      "step": 250
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.55479083351317e-07,
      "logits/chosen": -2.4323439598083496,
      "logits/rejected": -2.4124226570129395,
      "logps/chosen": -417.405029296875,
      "logps/rejected": -445.43707275390625,
      "loss": 0.0298,
      "rewards/accuracies": 0.6812499761581421,
      "rewards/chosen": -1.1992970705032349,
      "rewards/margins": 0.47717300057411194,
      "rewards/rejected": -1.676470160484314,
      "step": 260
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.3722002126275822e-07,
      "logits/chosen": -2.475048542022705,
      "logits/rejected": -2.4506657123565674,
      "logps/chosen": -392.7640075683594,
      "logps/rejected": -430.6897888183594,
      "loss": 0.0253,
      "rewards/accuracies": 0.606249988079071,
      "rewards/chosen": -1.3913904428482056,
      "rewards/margins": 0.3153776526451111,
      "rewards/rejected": -1.7067680358886719,
      "step": 270
    },
    {
      "epoch": 0.59,
      "learning_rate": 2.19029145890313e-07,
      "logits/chosen": -2.4361844062805176,
      "logits/rejected": -2.4216103553771973,
      "logps/chosen": -388.96063232421875,
      "logps/rejected": -430.0042419433594,
      "loss": 0.0261,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.2630523443222046,
      "rewards/margins": 0.5633870363235474,
      "rewards/rejected": -1.8264392614364624,
      "step": 280
    },
    {
      "epoch": 0.61,
      "learning_rate": 2.0100351342479216e-07,
      "logits/chosen": -2.500619411468506,
      "logits/rejected": -2.46304988861084,
      "logps/chosen": -409.1497497558594,
      "logps/rejected": -441.10198974609375,
      "loss": 0.0304,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -1.0858951807022095,
      "rewards/margins": 0.46196287870407104,
      "rewards/rejected": -1.5478579998016357,
      "step": 290
    },
    {
      "epoch": 0.63,
      "learning_rate": 1.8323929841460178e-07,
      "logits/chosen": -2.4326109886169434,
      "logits/rejected": -2.4290225505828857,
      "logps/chosen": -392.1640930175781,
      "logps/rejected": -414.16351318359375,
      "loss": 0.0267,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": -1.1948238611221313,
      "rewards/margins": 0.47188109159469604,
      "rewards/rejected": -1.6667048931121826,
      "step": 300
    },
    {
      "epoch": 0.63,
      "eval_logits/chosen": -2.471911668777466,
      "eval_logits/rejected": -2.458660840988159,
      "eval_logps/chosen": -367.22003173828125,
      "eval_logps/rejected": -428.8892517089844,
      "eval_loss": 0.02865579165518284,
      "eval_rewards/accuracies": 0.734375,
      "eval_rewards/chosen": -1.1018041372299194,
      "eval_rewards/margins": 0.6135556101799011,
      "eval_rewards/rejected": -1.7153598070144653,
      "eval_runtime": 53.2357,
      "eval_samples_per_second": 37.569,
      "eval_steps_per_second": 0.601,
      "step": 300
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.6583128063291573e-07,
      "logits/chosen": -2.4415957927703857,
      "logits/rejected": -2.4284932613372803,
      "logps/chosen": -407.1797790527344,
      "logps/rejected": -432.66436767578125,
      "loss": 0.0263,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": -1.1042468547821045,
      "rewards/margins": 0.6383775472640991,
      "rewards/rejected": -1.7426245212554932,
      "step": 310
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.488723393865766e-07,
      "logits/chosen": -2.4184253215789795,
      "logits/rejected": -2.3910305500030518,
      "logps/chosen": -378.49432373046875,
      "logps/rejected": -415.8314514160156,
      "loss": 0.0269,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.379817247390747,
      "rewards/margins": 0.4037790894508362,
      "rewards/rejected": -1.783596396446228,
      "step": 320
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.3245295796480788e-07,
      "logits/chosen": -2.390575885772705,
      "logits/rejected": -2.3807907104492188,
      "logps/chosen": -402.01800537109375,
      "logps/rejected": -452.57598876953125,
      "loss": 0.0257,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -1.1732884645462036,
      "rewards/margins": 0.4634523391723633,
      "rewards/rejected": -1.6367409229278564,
      "step": 330
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.1666074087171627e-07,
      "logits/chosen": -2.4380133152008057,
      "logits/rejected": -2.4201126098632812,
      "logps/chosen": -409.64093017578125,
      "logps/rejected": -423.3724670410156,
      "loss": 0.0238,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": -1.243157982826233,
      "rewards/margins": 0.5037888288497925,
      "rewards/rejected": -1.7469466924667358,
      "step": 340
    },
    {
      "epoch": 0.73,
      "learning_rate": 1.0157994641835734e-07,
      "logits/chosen": -2.4198803901672363,
      "logits/rejected": -2.369533061981201,
      "logps/chosen": -408.26910400390625,
      "logps/rejected": -487.27435302734375,
      "loss": 0.0235,
      "rewards/accuracies": 0.706250011920929,
      "rewards/chosen": -1.5223808288574219,
      "rewards/margins": 0.7387748956680298,
      "rewards/rejected": -2.261155843734741,
      "step": 350
    },
    {
      "epoch": 0.75,
      "learning_rate": 8.729103716819111e-08,
      "logits/chosen": -2.3843138217926025,
      "logits/rejected": -2.3418803215026855,
      "logps/chosen": -431.44854736328125,
      "logps/rejected": -472.52813720703125,
      "loss": 0.0225,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -1.4586023092269897,
      "rewards/margins": 0.6385560035705566,
      "rewards/rejected": -2.097158432006836,
      "step": 360
    },
    {
      "epoch": 0.77,
      "learning_rate": 7.387025063449081e-08,
      "logits/chosen": -2.4029147624969482,
      "logits/rejected": -2.3779168128967285,
      "logps/chosen": -383.9462890625,
      "logps/rejected": -458.59735107421875,
      "loss": 0.0216,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.391872763633728,
      "rewards/margins": 0.7170418500900269,
      "rewards/rejected": -2.108914375305176,
      "step": 370
    },
    {
      "epoch": 0.79,
      "learning_rate": 6.138919252022435e-08,
      "logits/chosen": -2.3961706161499023,
      "logits/rejected": -2.36126708984375,
      "logps/chosen": -409.074951171875,
      "logps/rejected": -450.57452392578125,
      "loss": 0.0207,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": -1.4532839059829712,
      "rewards/margins": 0.6719815731048584,
      "rewards/rejected": -2.125265598297119,
      "step": 380
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.991445467064689e-08,
      "logits/chosen": -2.337531328201294,
      "logits/rejected": -2.3046772480010986,
      "logps/chosen": -442.0828552246094,
      "logps/rejected": -477.5122985839844,
      "loss": 0.0231,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -1.542133092880249,
      "rewards/margins": 0.5396715402603149,
      "rewards/rejected": -2.0818047523498535,
      "step": 390
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.9507259776993954e-08,
      "logits/chosen": -2.4024269580841064,
      "logits/rejected": -2.3905534744262695,
      "logps/chosen": -429.47369384765625,
      "logps/rejected": -499.0704650878906,
      "loss": 0.0208,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.6260488033294678,
      "rewards/margins": 0.7209797501564026,
      "rewards/rejected": -2.3470287322998047,
      "step": 400
    },
    {
      "epoch": 0.84,
      "eval_logits/chosen": -2.407222270965576,
      "eval_logits/rejected": -2.3938333988189697,
      "eval_logps/chosen": -404.4031677246094,
      "eval_logps/rejected": -479.36236572265625,
      "eval_loss": 0.022896816954016685,
      "eval_rewards/accuracies": 0.71484375,
      "eval_rewards/chosen": -1.4736356735229492,
      "eval_rewards/margins": 0.746455192565918,
      "eval_rewards/rejected": -2.220090866088867,
      "eval_runtime": 53.1792,
      "eval_samples_per_second": 37.609,
      "eval_steps_per_second": 0.602,
      "step": 400
    },
    {
      "epoch": 0.86,
      "learning_rate": 3.022313472693447e-08,
      "logits/chosen": -2.379589796066284,
      "logits/rejected": -2.371739387512207,
      "logps/chosen": -441.45648193359375,
      "logps/rejected": -446.16265869140625,
      "loss": 0.0207,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -1.5874555110931396,
      "rewards/margins": 0.516998291015625,
      "rewards/rejected": -2.1044538021087646,
      "step": 410
    },
    {
      "epoch": 0.88,
      "learning_rate": 2.2111614344599684e-08,
      "logits/chosen": -2.4584357738494873,
      "logits/rejected": -2.4399354457855225,
      "logps/chosen": -441.65179443359375,
      "logps/rejected": -459.64208984375,
      "loss": 0.0232,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -1.469987392425537,
      "rewards/margins": 0.5242463946342468,
      "rewards/rejected": -1.9942338466644287,
      "step": 420
    },
    {
      "epoch": 0.9,
      "learning_rate": 1.521597710086439e-08,
      "logits/chosen": -2.4622554779052734,
      "logits/rejected": -2.4207379817962646,
      "logps/chosen": -428.8905334472656,
      "logps/rejected": -432.05108642578125,
      "loss": 0.021,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.411439299583435,
      "rewards/margins": 0.6273307800292969,
      "rewards/rejected": -2.0387701988220215,
      "step": 430
    },
    {
      "epoch": 0.92,
      "learning_rate": 9.57301420397924e-09,
      "logits/chosen": -2.443328857421875,
      "logits/rejected": -2.4111621379852295,
      "logps/chosen": -445.6102600097656,
      "logps/rejected": -446.654052734375,
      "loss": 0.0227,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -1.4215877056121826,
      "rewards/margins": 0.5511332154273987,
      "rewards/rejected": -1.972720742225647,
      "step": 440
    },
    {
      "epoch": 0.94,
      "learning_rate": 5.212833302556258e-09,
      "logits/chosen": -2.457451581954956,
      "logits/rejected": -2.4286131858825684,
      "logps/chosen": -411.8194885253906,
      "logps/rejected": -525.404296875,
      "loss": 0.0243,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": -1.3488930463790894,
      "rewards/margins": 0.9843934774398804,
      "rewards/rejected": -2.333286762237549,
      "step": 450
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.158697848236607e-09,
      "logits/chosen": -2.392413377761841,
      "logits/rejected": -2.3623125553131104,
      "logps/chosen": -452.897216796875,
      "logps/rejected": -460.3353576660156,
      "loss": 0.0226,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -1.4256120920181274,
      "rewards/margins": 0.5736899375915527,
      "rewards/rejected": -1.9993021488189697,
      "step": 460
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.269029751107489e-10,
      "logits/chosen": -2.4287571907043457,
      "logits/rejected": -2.387329578399658,
      "logps/chosen": -451.8321228027344,
      "logps/rejected": -473.54388427734375,
      "loss": 0.0243,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": -1.4879666566848755,
      "rewards/margins": 0.6231549978256226,
      "rewards/rejected": -2.111121654510498,
      "step": 470
    },
    {
      "epoch": 1.0,
      "step": 478,
      "total_flos": 0.0,
      "train_loss": 0.03937680171373998,
      "train_runtime": 4352.8265,
      "train_samples_per_second": 14.045,
      "train_steps_per_second": 0.11
    }
  ],
  "logging_steps": 10,
  "max_steps": 478,
  "num_train_epochs": 1,
  "save_steps": 100,
  "total_flos": 0.0,
  "trial_name": null,
  "trial_params": null
}