{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 100,
  "global_step": 478,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 27.37984871419997,
      "learning_rate": 1.0416666666666666e-08,
      "logits/chosen": -1.8783892393112183,
      "logits/rejected": -1.8756425380706787,
      "logps/chosen": -298.4870300292969,
      "logps/rejected": -398.0157165527344,
      "loss": 0.6931,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1
    },
    {
      "epoch": 0.02,
      "grad_norm": 25.334426597070937,
      "learning_rate": 1.0416666666666667e-07,
      "logits/chosen": -1.750243067741394,
      "logits/rejected": -1.7067593336105347,
      "logps/chosen": -280.5216369628906,
      "logps/rejected": -271.8791809082031,
      "loss": 0.6932,
      "rewards/accuracies": 0.4236111044883728,
      "rewards/chosen": -0.00042370916344225407,
      "rewards/margins": -0.0002716032031457871,
      "rewards/rejected": -0.00015210600395221263,
      "step": 10
    },
    {
      "epoch": 0.04,
      "grad_norm": 23.205563002993117,
      "learning_rate": 2.0833333333333333e-07,
      "logits/chosen": -1.8309519290924072,
      "logits/rejected": -1.7239341735839844,
      "logps/chosen": -298.9266662597656,
      "logps/rejected": -320.81036376953125,
      "loss": 0.6919,
      "rewards/accuracies": 0.5375000238418579,
      "rewards/chosen": 0.00880073755979538,
      "rewards/margins": 0.0003546981024555862,
      "rewards/rejected": 0.008446039631962776,
      "step": 20
    },
    {
      "epoch": 0.06,
      "grad_norm": 22.833130746886702,
      "learning_rate": 3.1249999999999997e-07,
      "logits/chosen": -1.8621642589569092,
      "logits/rejected": -1.811255693435669,
      "logps/chosen": -315.0081481933594,
      "logps/rejected": -281.7824401855469,
      "loss": 0.6846,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.06436704099178314,
      "rewards/margins": 0.02108323760330677,
      "rewards/rejected": 0.04328380152583122,
      "step": 30
    },
    {
      "epoch": 0.08,
      "grad_norm": 20.296209907433,
      "learning_rate": 4.1666666666666667e-07,
      "logits/chosen": -1.7256094217300415,
      "logits/rejected": -1.6898906230926514,
      "logps/chosen": -269.07220458984375,
      "logps/rejected": -258.07366943359375,
      "loss": 0.6708,
      "rewards/accuracies": 0.668749988079071,
      "rewards/chosen": 0.15135471522808075,
      "rewards/margins": 0.05834723263978958,
      "rewards/rejected": 0.09300748258829117,
      "step": 40
    },
    {
      "epoch": 0.1,
      "grad_norm": 18.992519669533575,
      "learning_rate": 4.999733114418725e-07,
      "logits/chosen": -1.7586348056793213,
      "logits/rejected": -1.7471107244491577,
      "logps/chosen": -274.77728271484375,
      "logps/rejected": -298.24298095703125,
      "loss": 0.6568,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.2238006889820099,
      "rewards/margins": 0.05361497402191162,
      "rewards/rejected": 0.17018567025661469,
      "step": 50
    },
    {
      "epoch": 0.13,
      "grad_norm": 22.488749510223712,
      "learning_rate": 4.990398100856366e-07,
      "logits/chosen": -1.8446115255355835,
      "logits/rejected": -1.8052647113800049,
      "logps/chosen": -268.59100341796875,
      "logps/rejected": -318.24041748046875,
      "loss": 0.642,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.22674357891082764,
      "rewards/margins": 0.11847379058599472,
      "rewards/rejected": 0.10826978832483292,
      "step": 60
    },
    {
      "epoch": 0.15,
      "grad_norm": 24.241452630651324,
      "learning_rate": 4.967775735898179e-07,
      "logits/chosen": -1.6720319986343384,
      "logits/rejected": -1.6877762079238892,
      "logps/chosen": -274.5986022949219,
      "logps/rejected": -289.9263610839844,
      "loss": 0.6123,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": 0.11401952803134918,
      "rewards/margins": 0.22531266510486603,
      "rewards/rejected": -0.11129315197467804,
      "step": 70
    },
    {
      "epoch": 0.17,
      "grad_norm": 32.48718302712838,
      "learning_rate": 4.931986719649298e-07,
      "logits/chosen": -1.910599946975708,
      "logits/rejected": -1.7989906072616577,
      "logps/chosen": -356.32135009765625,
      "logps/rejected": -325.3817443847656,
      "loss": 0.5878,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.07416001707315445,
      "rewards/margins": 0.30830469727516174,
      "rewards/rejected": -0.3824646770954132,
      "step": 80
    },
    {
      "epoch": 0.19,
      "grad_norm": 32.46521048247274,
      "learning_rate": 4.883222001996351e-07,
      "logits/chosen": -1.781141996383667,
      "logits/rejected": -1.773406982421875,
      "logps/chosen": -326.0487365722656,
      "logps/rejected": -370.7205505371094,
      "loss": 0.5637,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": -0.45380252599716187,
      "rewards/margins": 0.5182568430900574,
      "rewards/rejected": -0.9720592498779297,
      "step": 90
    },
    {
      "epoch": 0.21,
      "grad_norm": 33.51530497027872,
      "learning_rate": 4.821741763807186e-07,
      "logits/chosen": -1.795566201210022,
      "logits/rejected": -1.7746385335922241,
      "logps/chosen": -341.0810241699219,
      "logps/rejected": -391.9131774902344,
      "loss": 0.5671,
      "rewards/accuracies": 0.6812499761581421,
      "rewards/chosen": -0.6200565695762634,
      "rewards/margins": 0.5509090423583984,
      "rewards/rejected": -1.1709656715393066,
      "step": 100
    },
    {
      "epoch": 0.21,
      "eval_logits/chosen": -1.8679490089416504,
      "eval_logits/rejected": -1.8570616245269775,
      "eval_logps/chosen": -316.96636962890625,
      "eval_logps/rejected": -376.7557373046875,
      "eval_loss": 0.5698967576026917,
      "eval_rewards/accuracies": 0.73046875,
      "eval_rewards/chosen": -0.3533283472061157,
      "eval_rewards/margins": 0.5366135239601135,
      "eval_rewards/rejected": -0.8899418115615845,
      "eval_runtime": 97.6563,
      "eval_samples_per_second": 20.48,
      "eval_steps_per_second": 0.328,
      "step": 100
    },
    {
      "epoch": 0.23,
      "grad_norm": 34.820943984944364,
      "learning_rate": 4.747874028753375e-07,
      "logits/chosen": -1.9302442073822021,
      "logits/rejected": -1.8041632175445557,
      "logps/chosen": -364.3658142089844,
      "logps/rejected": -368.28619384765625,
      "loss": 0.5779,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": -0.3326733410358429,
      "rewards/margins": 0.5019634962081909,
      "rewards/rejected": -0.8346366882324219,
      "step": 110
    },
    {
      "epoch": 0.25,
      "grad_norm": 35.52031238722188,
      "learning_rate": 4.662012913161997e-07,
      "logits/chosen": -1.8828121423721313,
      "logits/rejected": -1.8731359243392944,
      "logps/chosen": -346.777099609375,
      "logps/rejected": -378.0817565917969,
      "loss": 0.544,
      "rewards/accuracies": 0.7437499761581421,
      "rewards/chosen": -0.42460617423057556,
      "rewards/margins": 0.5200009942054749,
      "rewards/rejected": -0.9446069598197937,
      "step": 120
    },
    {
      "epoch": 0.27,
      "grad_norm": 40.83171596073763,
      "learning_rate": 4.5646165232345103e-07,
      "logits/chosen": -1.9067420959472656,
      "logits/rejected": -1.848259687423706,
      "logps/chosen": -353.1668395996094,
      "logps/rejected": -412.601806640625,
      "loss": 0.5319,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -0.5689653158187866,
      "rewards/margins": 0.6179059147834778,
      "rewards/rejected": -1.1868712902069092,
      "step": 130
    },
    {
      "epoch": 0.29,
      "grad_norm": 39.57816446283388,
      "learning_rate": 4.456204510851956e-07,
      "logits/chosen": -1.79110848903656,
      "logits/rejected": -1.710828423500061,
      "logps/chosen": -390.3045959472656,
      "logps/rejected": -453.116943359375,
      "loss": 0.537,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": -0.5443016290664673,
      "rewards/margins": 0.7209955453872681,
      "rewards/rejected": -1.2652971744537354,
      "step": 140
    },
    {
      "epoch": 0.31,
      "grad_norm": 45.241736858623206,
      "learning_rate": 4.337355301007335e-07,
      "logits/chosen": -1.8114426136016846,
      "logits/rejected": -1.7426559925079346,
      "logps/chosen": -352.48992919921875,
      "logps/rejected": -402.91943359375,
      "loss": 0.5462,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": -0.5064585208892822,
      "rewards/margins": 0.5219663381576538,
      "rewards/rejected": -1.028424859046936,
      "step": 150
    },
    {
      "epoch": 0.33,
      "grad_norm": 73.25214998863763,
      "learning_rate": 4.2087030056579986e-07,
      "logits/chosen": -1.8390640020370483,
      "logits/rejected": -1.7504537105560303,
      "logps/chosen": -339.1869812011719,
      "logps/rejected": -387.9916076660156,
      "loss": 0.5442,
      "rewards/accuracies": 0.7562500238418579,
      "rewards/chosen": -0.4455109238624573,
      "rewards/margins": 0.7391675710678101,
      "rewards/rejected": -1.1846784353256226,
      "step": 160
    },
    {
      "epoch": 0.36,
      "grad_norm": 48.08778532882697,
      "learning_rate": 4.070934040463998e-07,
      "logits/chosen": -1.7452236413955688,
      "logits/rejected": -1.6487846374511719,
      "logps/chosen": -335.72528076171875,
      "logps/rejected": -377.5245361328125,
      "loss": 0.5304,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": -0.6902536749839783,
      "rewards/margins": 0.5506319999694824,
      "rewards/rejected": -1.2408854961395264,
      "step": 170
    },
    {
      "epoch": 0.38,
      "grad_norm": 45.566526901622865,
      "learning_rate": 3.9247834624635404e-07,
      "logits/chosen": -1.5920779705047607,
      "logits/rejected": -1.5328117609024048,
      "logps/chosen": -352.29937744140625,
      "logps/rejected": -390.72100830078125,
      "loss": 0.5011,
      "rewards/accuracies": 0.6812499761581421,
      "rewards/chosen": -0.8087765574455261,
      "rewards/margins": 0.6529080867767334,
      "rewards/rejected": -1.4616845846176147,
      "step": 180
    },
    {
      "epoch": 0.4,
      "grad_norm": 48.30624199959232,
      "learning_rate": 3.7710310482256523e-07,
      "logits/chosen": -1.7276074886322021,
      "logits/rejected": -1.6613149642944336,
      "logps/chosen": -347.87579345703125,
      "logps/rejected": -405.24237060546875,
      "loss": 0.5308,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.5396801829338074,
      "rewards/margins": 0.6805658936500549,
      "rewards/rejected": -1.2202460765838623,
      "step": 190
    },
    {
      "epoch": 0.42,
      "grad_norm": 99.6040419345467,
      "learning_rate": 3.610497133404795e-07,
      "logits/chosen": -1.7740137577056885,
      "logits/rejected": -1.7177015542984009,
      "logps/chosen": -344.6033020019531,
      "logps/rejected": -404.29229736328125,
      "loss": 0.5413,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.6725525856018066,
      "rewards/margins": 0.6624492406845093,
      "rewards/rejected": -1.3350017070770264,
      "step": 200
    },
    {
      "epoch": 0.42,
      "eval_logits/chosen": -1.901658296585083,
      "eval_logits/rejected": -1.8679291009902954,
      "eval_logps/chosen": -349.037841796875,
      "eval_logps/rejected": -432.6194152832031,
      "eval_loss": 0.5253521800041199,
      "eval_rewards/accuracies": 0.7265625,
      "eval_rewards/chosen": -0.6740425825119019,
      "eval_rewards/margins": 0.7745361328125,
      "eval_rewards/rejected": -1.4485788345336914,
      "eval_runtime": 97.5006,
      "eval_samples_per_second": 20.513,
      "eval_steps_per_second": 0.328,
      "step": 200
    },
    {
      "epoch": 0.44,
      "grad_norm": 46.68866608504909,
      "learning_rate": 3.4440382358952115e-07,
      "logits/chosen": -1.734480619430542,
      "logits/rejected": -1.6646308898925781,
      "logps/chosen": -384.4491882324219,
      "logps/rejected": -421.3724670410156,
      "loss": 0.5373,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.7106617093086243,
      "rewards/margins": 0.7391539812088013,
      "rewards/rejected": -1.4498156309127808,
      "step": 210
    },
    {
      "epoch": 0.46,
      "grad_norm": 44.67370083595421,
      "learning_rate": 3.272542485937368e-07,
      "logits/chosen": -1.7060235738754272,
      "logits/rejected": -1.621319055557251,
      "logps/chosen": -333.583740234375,
      "logps/rejected": -387.3582458496094,
      "loss": 0.5233,
      "rewards/accuracies": 0.768750011920929,
      "rewards/chosen": -0.5107825994491577,
      "rewards/margins": 0.7757614850997925,
      "rewards/rejected": -1.2865440845489502,
      "step": 220
    },
    {
      "epoch": 0.48,
      "grad_norm": 44.602377758622936,
      "learning_rate": 3.096924887558854e-07,
      "logits/chosen": -1.672357201576233,
      "logits/rejected": -1.677425742149353,
      "logps/chosen": -334.2008361816406,
      "logps/rejected": -428.0926208496094,
      "loss": 0.5239,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": -0.6795379519462585,
      "rewards/margins": 0.8884698152542114,
      "rewards/rejected": -1.5680078268051147,
      "step": 230
    },
    {
      "epoch": 0.5,
      "grad_norm": 43.82303533573589,
      "learning_rate": 2.9181224366319943e-07,
      "logits/chosen": -1.6859185695648193,
      "logits/rejected": -1.6255781650543213,
      "logps/chosen": -357.11773681640625,
      "logps/rejected": -421.4244079589844,
      "loss": 0.4902,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.6822614073753357,
      "rewards/margins": 0.8219982385635376,
      "rewards/rejected": -1.5042595863342285,
      "step": 240
    },
    {
      "epoch": 0.52,
      "grad_norm": 46.68066851465082,
      "learning_rate": 2.7370891215954565e-07,
      "logits/chosen": -1.5676295757293701,
      "logits/rejected": -1.4538037776947021,
      "logps/chosen": -401.59979248046875,
      "logps/rejected": -471.2294006347656,
      "loss": 0.5154,
      "rewards/accuracies": 0.7875000238418579,
      "rewards/chosen": -0.7957779765129089,
      "rewards/margins": 1.0585238933563232,
      "rewards/rejected": -1.8543018102645874,
      "step": 250
    },
    {
      "epoch": 0.54,
      "grad_norm": 45.74080164598797,
      "learning_rate": 2.55479083351317e-07,
      "logits/chosen": -1.5453943014144897,
      "logits/rejected": -1.3946092128753662,
      "logps/chosen": -411.67681884765625,
      "logps/rejected": -464.185791015625,
      "loss": 0.5124,
      "rewards/accuracies": 0.768750011920929,
      "rewards/chosen": -0.9510448575019836,
      "rewards/margins": 0.9077135324478149,
      "rewards/rejected": -1.8587583303451538,
      "step": 260
    },
    {
      "epoch": 0.56,
      "grad_norm": 35.67215071482242,
      "learning_rate": 2.3722002126275822e-07,
      "logits/chosen": -1.4410674571990967,
      "logits/rejected": -1.4173917770385742,
      "logps/chosen": -389.84442138671875,
      "logps/rejected": -446.63946533203125,
      "loss": 0.5176,
      "rewards/accuracies": 0.6812499761581421,
      "rewards/chosen": -0.882165253162384,
      "rewards/margins": 0.7578494548797607,
      "rewards/rejected": -1.6400146484375,
      "step": 270
    },
    {
      "epoch": 0.59,
      "grad_norm": 45.13283149696396,
      "learning_rate": 2.19029145890313e-07,
      "logits/chosen": -1.3330192565917969,
      "logits/rejected": -1.2097164392471313,
      "logps/chosen": -361.392578125,
      "logps/rejected": -428.5855407714844,
      "loss": 0.5182,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -0.7854728102684021,
      "rewards/margins": 0.8376423716545105,
      "rewards/rejected": -1.6231151819229126,
      "step": 280
    },
    {
      "epoch": 0.61,
      "grad_norm": 42.58221661061121,
      "learning_rate": 2.0100351342479216e-07,
      "logits/chosen": -1.3783751726150513,
      "logits/rejected": -1.3098156452178955,
      "logps/chosen": -341.5384521484375,
      "logps/rejected": -416.83050537109375,
      "loss": 0.5035,
      "rewards/accuracies": 0.768750011920929,
      "rewards/chosen": -0.7412964105606079,
      "rewards/margins": 0.8173438906669617,
      "rewards/rejected": -1.5586402416229248,
      "step": 290
    },
    {
      "epoch": 0.63,
      "grad_norm": 44.44135138330837,
      "learning_rate": 1.8323929841460178e-07,
      "logits/chosen": -1.4361331462860107,
      "logits/rejected": -1.2948487997055054,
      "logps/chosen": -415.39324951171875,
      "logps/rejected": -463.1932067871094,
      "loss": 0.4829,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.9276901483535767,
      "rewards/margins": 0.8659119606018066,
      "rewards/rejected": -1.7936019897460938,
      "step": 300
    },
    {
      "epoch": 0.63,
      "eval_logits/chosen": -1.256626844406128,
      "eval_logits/rejected": -1.199381709098816,
      "eval_logps/chosen": -368.2399597167969,
      "eval_logps/rejected": -477.2876892089844,
      "eval_loss": 0.49556368589401245,
      "eval_rewards/accuracies": 0.78125,
      "eval_rewards/chosen": -0.8660640716552734,
      "eval_rewards/margins": 1.0291972160339355,
      "eval_rewards/rejected": -1.895261287689209,
      "eval_runtime": 97.5907,
      "eval_samples_per_second": 20.494,
      "eval_steps_per_second": 0.328,
      "step": 300
    },
    {
      "epoch": 0.65,
      "grad_norm": 49.20598478293576,
      "learning_rate": 1.6583128063291573e-07,
      "logits/chosen": -1.070894479751587,
      "logits/rejected": -0.999220073223114,
      "logps/chosen": -422.22509765625,
      "logps/rejected": -478.1600646972656,
      "loss": 0.4882,
      "rewards/accuracies": 0.7562500238418579,
      "rewards/chosen": -1.0501785278320312,
      "rewards/margins": 0.9182316660881042,
      "rewards/rejected": -1.9684101343154907,
      "step": 310
    },
    {
      "epoch": 0.67,
      "grad_norm": 49.52786644109137,
      "learning_rate": 1.488723393865766e-07,
      "logits/chosen": -0.9732829332351685,
      "logits/rejected": -0.8598931431770325,
      "logps/chosen": -423.58465576171875,
      "logps/rejected": -463.65087890625,
      "loss": 0.482,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": -1.0610870122909546,
      "rewards/margins": 0.8992059826850891,
      "rewards/rejected": -1.960293173789978,
      "step": 320
    },
    {
      "epoch": 0.69,
      "grad_norm": 44.16474950280745,
      "learning_rate": 1.3245295796480788e-07,
      "logits/chosen": -1.1072012186050415,
      "logits/rejected": -0.9854669570922852,
      "logps/chosen": -383.697509765625,
      "logps/rejected": -467.64630126953125,
      "loss": 0.4809,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": -1.015866756439209,
      "rewards/margins": 0.7990261316299438,
      "rewards/rejected": -1.8148927688598633,
      "step": 330
    },
    {
      "epoch": 0.71,
      "grad_norm": 49.790170416193874,
      "learning_rate": 1.1666074087171627e-07,
      "logits/chosen": -1.0710186958312988,
      "logits/rejected": -0.9443724751472473,
      "logps/chosen": -406.4459228515625,
      "logps/rejected": -490.1005859375,
      "loss": 0.4931,
      "rewards/accuracies": 0.7875000238418579,
      "rewards/chosen": -0.9062315821647644,
      "rewards/margins": 0.9880655407905579,
      "rewards/rejected": -1.8942972421646118,
      "step": 340
    },
    {
      "epoch": 0.73,
      "grad_norm": 45.78788884909769,
      "learning_rate": 1.0157994641835734e-07,
      "logits/chosen": -0.964527428150177,
      "logits/rejected": -0.8877021670341492,
      "logps/chosen": -366.8417053222656,
      "logps/rejected": -448.39239501953125,
      "loss": 0.4708,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": -0.8918215036392212,
      "rewards/margins": 0.9880329966545105,
      "rewards/rejected": -1.879854440689087,
      "step": 350
    },
    {
      "epoch": 0.75,
      "grad_norm": 47.523486254775236,
      "learning_rate": 8.729103716819111e-08,
      "logits/chosen": -1.099103331565857,
      "logits/rejected": -0.9152529835700989,
      "logps/chosen": -418.78790283203125,
      "logps/rejected": -472.5894470214844,
      "loss": 0.5139,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.9209517240524292,
      "rewards/margins": 0.9369718432426453,
      "rewards/rejected": -1.8579237461090088,
      "step": 360
    },
    {
      "epoch": 0.77,
      "grad_norm": 40.46200259764798,
      "learning_rate": 7.387025063449081e-08,
      "logits/chosen": -1.0258140563964844,
      "logits/rejected": -0.9037224054336548,
      "logps/chosen": -389.7789611816406,
      "logps/rejected": -427.80902099609375,
      "loss": 0.501,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.9432722926139832,
      "rewards/margins": 0.7514128684997559,
      "rewards/rejected": -1.6946852207183838,
      "step": 370
    },
    {
      "epoch": 0.79,
      "grad_norm": 44.99044596346264,
      "learning_rate": 6.138919252022435e-08,
      "logits/chosen": -0.9202815294265747,
      "logits/rejected": -0.9092128872871399,
      "logps/chosen": -369.4691467285156,
      "logps/rejected": -499.80047607421875,
      "loss": 0.4856,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": -1.1355737447738647,
      "rewards/margins": 1.0553382635116577,
      "rewards/rejected": -2.1909122467041016,
      "step": 380
    },
    {
      "epoch": 0.82,
      "grad_norm": 46.73184407203235,
      "learning_rate": 4.991445467064689e-08,
      "logits/chosen": -1.017165184020996,
      "logits/rejected": -0.9522297978401184,
      "logps/chosen": -429.59124755859375,
      "logps/rejected": -499.8984375,
      "loss": 0.4844,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": -1.0497267246246338,
      "rewards/margins": 0.8575556874275208,
      "rewards/rejected": -1.9072824716567993,
      "step": 390
    },
    {
      "epoch": 0.84,
      "grad_norm": 45.88759783660656,
      "learning_rate": 3.9507259776993954e-08,
      "logits/chosen": -0.8822342753410339,
      "logits/rejected": -0.7616764307022095,
      "logps/chosen": -393.79986572265625,
      "logps/rejected": -488.7137145996094,
      "loss": 0.4981,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -1.0166757106781006,
      "rewards/margins": 0.9999138116836548,
      "rewards/rejected": -2.016589403152466,
      "step": 400
    },
    {
      "epoch": 0.84,
      "eval_logits/chosen": -1.0730373859405518,
      "eval_logits/rejected": -0.9850106239318848,
      "eval_logps/chosen": -365.3529357910156,
      "eval_logps/rejected": -476.14508056640625,
      "eval_loss": 0.49130114912986755,
      "eval_rewards/accuracies": 0.78515625,
      "eval_rewards/chosen": -0.8371938467025757,
      "eval_rewards/margins": 1.0466417074203491,
      "eval_rewards/rejected": -1.8838355541229248,
      "eval_runtime": 97.6225,
      "eval_samples_per_second": 20.487,
      "eval_steps_per_second": 0.328,
      "step": 400
    },
    {
      "epoch": 0.86,
      "grad_norm": 44.331882429947925,
      "learning_rate": 3.022313472693447e-08,
      "logits/chosen": -1.0954724550247192,
      "logits/rejected": -0.854290783405304,
      "logps/chosen": -407.5718078613281,
      "logps/rejected": -482.7383728027344,
      "loss": 0.4921,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": -0.8705843687057495,
      "rewards/margins": 1.0231659412384033,
      "rewards/rejected": -1.8937501907348633,
      "step": 410
    },
    {
      "epoch": 0.88,
      "grad_norm": 48.31749590006741,
      "learning_rate": 2.2111614344599684e-08,
      "logits/chosen": -1.0192204713821411,
      "logits/rejected": -0.973158061504364,
      "logps/chosen": -416.341552734375,
      "logps/rejected": -486.69232177734375,
      "loss": 0.4856,
      "rewards/accuracies": 0.7437499761581421,
      "rewards/chosen": -0.9502483606338501,
      "rewards/margins": 0.9265721440315247,
      "rewards/rejected": -1.8768205642700195,
      "step": 420
    },
    {
      "epoch": 0.9,
      "grad_norm": 40.281913550333705,
      "learning_rate": 1.521597710086439e-08,
      "logits/chosen": -0.9044865369796753,
      "logits/rejected": -0.8032494783401489,
      "logps/chosen": -405.5864562988281,
      "logps/rejected": -480.13201904296875,
      "loss": 0.4776,
      "rewards/accuracies": 0.793749988079071,
      "rewards/chosen": -1.037095546722412,
      "rewards/margins": 0.9771502614021301,
      "rewards/rejected": -2.0142457485198975,
      "step": 430
    },
    {
      "epoch": 0.92,
      "grad_norm": 43.058313272164526,
      "learning_rate": 9.57301420397924e-09,
      "logits/chosen": -0.9727311134338379,
      "logits/rejected": -0.8283950090408325,
      "logps/chosen": -393.12823486328125,
      "logps/rejected": -472.7400817871094,
      "loss": 0.4944,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.8835296630859375,
      "rewards/margins": 0.8925860524177551,
      "rewards/rejected": -1.7761156558990479,
      "step": 440
    },
    {
      "epoch": 0.94,
      "grad_norm": 45.17569103872668,
      "learning_rate": 5.212833302556258e-09,
      "logits/chosen": -0.8834640383720398,
      "logits/rejected": -0.8035561442375183,
      "logps/chosen": -416.1705627441406,
      "logps/rejected": -517.479248046875,
      "loss": 0.4973,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": -1.0344994068145752,
      "rewards/margins": 0.8305438756942749,
      "rewards/rejected": -1.8650434017181396,
      "step": 450
    },
    {
      "epoch": 0.96,
      "grad_norm": 57.18112420515564,
      "learning_rate": 2.158697848236607e-09,
      "logits/chosen": -0.9279729723930359,
      "logits/rejected": -0.8204873204231262,
      "logps/chosen": -390.6974182128906,
      "logps/rejected": -443.84051513671875,
      "loss": 0.4944,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": -0.9189409017562866,
      "rewards/margins": 0.8423686027526855,
      "rewards/rejected": -1.7613098621368408,
      "step": 460
    },
    {
      "epoch": 0.98,
      "grad_norm": 40.005457130126345,
      "learning_rate": 4.269029751107489e-10,
      "logits/chosen": -0.9693315625190735,
      "logits/rejected": -0.8152003288269043,
      "logps/chosen": -384.0590515136719,
      "logps/rejected": -482.89630126953125,
      "loss": 0.4792,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.8925178647041321,
      "rewards/margins": 0.9355740547180176,
      "rewards/rejected": -1.8280918598175049,
      "step": 470
    },
    {
      "epoch": 1.0,
      "step": 478,
      "total_flos": 0.0,
      "train_loss": 0.5347933170685708,
      "train_runtime": 7634.2165,
      "train_samples_per_second": 8.008,
      "train_steps_per_second": 0.063
    }
  ],
  "logging_steps": 10,
  "max_steps": 478,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}