{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 500,
  "global_step": 368,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01,
      "grad_norm": 2062.9417756205603,
      "learning_rate": 2.702702702702703e-10,
      "logits/chosen": -1.3332719802856445,
      "logits/rejected": -1.246394395828247,
      "logps/chosen": -286.9539794921875,
      "logps/rejected": -263.3782958984375,
      "loss": 0.7136,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1
    },
    {
      "epoch": 0.05,
      "grad_norm": 2488.3980990852974,
      "learning_rate": 2.702702702702703e-09,
      "logits/chosen": -1.6142714023590088,
      "logits/rejected": -1.3925563097000122,
      "logps/chosen": -342.4814758300781,
      "logps/rejected": -294.5446472167969,
      "loss": 0.8226,
      "rewards/accuracies": 0.4618055522441864,
      "rewards/chosen": 0.079922616481781,
      "rewards/margins": 0.09200635552406311,
      "rewards/rejected": -0.012083739042282104,
      "step": 10
    },
    {
      "epoch": 0.11,
      "grad_norm": 2085.30491295085,
      "learning_rate": 5.405405405405406e-09,
      "logits/chosen": -1.4863827228546143,
      "logits/rejected": -1.3085709810256958,
      "logps/chosen": -314.74273681640625,
      "logps/rejected": -279.32977294921875,
      "loss": 0.8217,
      "rewards/accuracies": 0.5375000238418579,
      "rewards/chosen": 0.03496693819761276,
      "rewards/margins": 0.07092654705047607,
      "rewards/rejected": -0.03595960885286331,
      "step": 20
    },
    {
      "epoch": 0.16,
      "grad_norm": 2613.9787597915297,
      "learning_rate": 8.108108108108109e-09,
      "logits/chosen": -1.5464979410171509,
      "logits/rejected": -1.3788726329803467,
      "logps/chosen": -324.9065246582031,
      "logps/rejected": -286.29925537109375,
      "loss": 0.8318,
      "rewards/accuracies": 0.515625,
      "rewards/chosen": -0.0007322698947973549,
      "rewards/margins": 0.02973010204732418,
      "rewards/rejected": -0.030462373048067093,
      "step": 30
    },
    {
      "epoch": 0.22,
      "grad_norm": 2309.6989479898994,
      "learning_rate": 9.997973265157192e-09,
      "logits/chosen": -1.5338213443756104,
      "logits/rejected": -1.356065034866333,
      "logps/chosen": -325.39349365234375,
      "logps/rejected": -285.630859375,
      "loss": 0.8544,
      "rewards/accuracies": 0.5093749761581421,
      "rewards/chosen": -0.00019043684005737305,
      "rewards/margins": -0.028223956003785133,
      "rewards/rejected": 0.02803351916372776,
      "step": 40
    },
    {
      "epoch": 0.27,
      "grad_norm": 2372.8781916000794,
      "learning_rate": 9.961988113473708e-09,
      "logits/chosen": -1.540814757347107,
      "logits/rejected": -1.3939155340194702,
      "logps/chosen": -337.01385498046875,
      "logps/rejected": -297.3047790527344,
      "loss": 0.7925,
      "rewards/accuracies": 0.5062500238418579,
      "rewards/chosen": 0.010568022727966309,
      "rewards/margins": 0.0009421706199645996,
      "rewards/rejected": 0.009625854901969433,
      "step": 50
    },
    {
      "epoch": 0.33,
      "grad_norm": 1906.9193219897543,
      "learning_rate": 9.881337335184878e-09,
      "logits/chosen": -1.5821880102157593,
      "logits/rejected": -1.433316707611084,
      "logps/chosen": -319.8349609375,
      "logps/rejected": -285.03131103515625,
      "loss": 0.7444,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": 0.011926290579140186,
      "rewards/margins": 0.23517760634422302,
      "rewards/rejected": -0.22325129806995392,
      "step": 60
    },
    {
      "epoch": 0.38,
      "grad_norm": 2229.621479388874,
      "learning_rate": 9.756746912994832e-09,
      "logits/chosen": -1.5089519023895264,
      "logits/rejected": -1.3478004932403564,
      "logps/chosen": -312.11767578125,
      "logps/rejected": -275.03704833984375,
      "loss": 0.7381,
      "rewards/accuracies": 0.5531250238418579,
      "rewards/chosen": -0.015234187245368958,
      "rewards/margins": 0.07565010339021683,
      "rewards/rejected": -0.09088429063558578,
      "step": 70
    },
    {
      "epoch": 0.43,
      "grad_norm": 1970.0426820414286,
      "learning_rate": 9.589338354885628e-09,
      "logits/chosen": -1.591552734375,
      "logits/rejected": -1.4374128580093384,
      "logps/chosen": -323.3088684082031,
      "logps/rejected": -288.12445068359375,
      "loss": 0.7257,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.1117367148399353,
      "rewards/margins": 0.34563174843788147,
      "rewards/rejected": -0.23389501869678497,
      "step": 80
    },
    {
      "epoch": 0.49,
      "grad_norm": 1647.476042777907,
      "learning_rate": 9.380618598797472e-09,
      "logits/chosen": -1.6083869934082031,
      "logits/rejected": -1.4117141962051392,
      "logps/chosen": -319.9634094238281,
      "logps/rejected": -281.79248046875,
      "loss": 0.6768,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.1753208488225937,
      "rewards/margins": 0.44467267394065857,
      "rewards/rejected": -0.2693518102169037,
      "step": 90
    },
    {
      "epoch": 0.54,
      "grad_norm": 1779.591190181612,
      "learning_rate": 9.132466447838596e-09,
      "logits/chosen": -1.5439790487289429,
      "logits/rejected": -1.368858814239502,
      "logps/chosen": -321.8800964355469,
      "logps/rejected": -282.66168212890625,
      "loss": 0.6482,
      "rewards/accuracies": 0.668749988079071,
      "rewards/chosen": 0.34998807311058044,
      "rewards/margins": 0.6073418855667114,
      "rewards/rejected": -0.25735384225845337,
      "step": 100
    },
    {
      "epoch": 0.6,
      "grad_norm": 1799.5128068859713,
      "learning_rate": 8.847115658129039e-09,
      "logits/chosen": -1.5068881511688232,
      "logits/rejected": -1.3783992528915405,
      "logps/chosen": -318.10797119140625,
      "logps/rejected": -287.1791076660156,
      "loss": 0.6577,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.35399100184440613,
      "rewards/margins": 0.5296486616134644,
      "rewards/rejected": -0.17565762996673584,
      "step": 110
    },
    {
      "epoch": 0.65,
      "grad_norm": 1676.764876114058,
      "learning_rate": 8.527134831514116e-09,
      "logits/chosen": -1.5781362056732178,
      "logits/rejected": -1.4229751825332642,
      "logps/chosen": -331.3733825683594,
      "logps/rejected": -297.85699462890625,
      "loss": 0.6575,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": 0.3793606460094452,
      "rewards/margins": 0.4118588864803314,
      "rewards/rejected": -0.03249818831682205,
      "step": 120
    },
    {
      "epoch": 0.71,
      "grad_norm": 1566.6901996912077,
      "learning_rate": 8.175404294144481e-09,
      "logits/chosen": -1.6145737171173096,
      "logits/rejected": -1.4269483089447021,
      "logps/chosen": -317.0880432128906,
      "logps/rejected": -271.5414123535156,
      "loss": 0.6044,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": 0.6310849189758301,
      "rewards/margins": 0.7299145460128784,
      "rewards/rejected": -0.09882961958646774,
      "step": 130
    },
    {
      "epoch": 0.76,
      "grad_norm": 1706.595775593044,
      "learning_rate": 7.79509016905158e-09,
      "logits/chosen": -1.5648548603057861,
      "logits/rejected": -1.4158308506011963,
      "logps/chosen": -331.06622314453125,
      "logps/rejected": -294.2123718261719,
      "loss": 0.6171,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.7887445092201233,
      "rewards/margins": 0.765161395072937,
      "rewards/rejected": 0.023583168163895607,
      "step": 140
    },
    {
      "epoch": 0.82,
      "grad_norm": 1648.2049279025357,
      "learning_rate": 7.389615876105773e-09,
      "logits/chosen": -1.5560743808746338,
      "logits/rejected": -1.4283266067504883,
      "logps/chosen": -314.5069274902344,
      "logps/rejected": -291.7706298828125,
      "loss": 0.6127,
      "rewards/accuracies": 0.6656249761581421,
      "rewards/chosen": 0.8379846811294556,
      "rewards/margins": 0.7371869087219238,
      "rewards/rejected": 0.10079775750637054,
      "step": 150
    },
    {
      "epoch": 0.87,
      "grad_norm": 1635.8235385722824,
      "learning_rate": 6.962631315901861e-09,
      "logits/chosen": -1.5186518430709839,
      "logits/rejected": -1.4028724431991577,
      "logps/chosen": -317.958251953125,
      "logps/rejected": -291.0096435546875,
      "loss": 0.6088,
      "rewards/accuracies": 0.653124988079071,
      "rewards/chosen": 0.8378221392631531,
      "rewards/margins": 0.6740074753761292,
      "rewards/rejected": 0.16381461918354034,
      "step": 160
    },
    {
      "epoch": 0.92,
      "grad_norm": 1575.6130834814026,
      "learning_rate": 6.517980014965139e-09,
      "logits/chosen": -1.6025912761688232,
      "logits/rejected": -1.4152277708053589,
      "logps/chosen": -331.40386962890625,
      "logps/rejected": -289.4659729003906,
      "loss": 0.5997,
      "rewards/accuracies": 0.6937500238418579,
      "rewards/chosen": 0.8780991435050964,
      "rewards/margins": 0.8349622488021851,
      "rewards/rejected": 0.04313689470291138,
      "step": 170
    },
    {
      "epoch": 0.98,
      "grad_norm": 1546.3751249922345,
      "learning_rate": 6.059664528022266e-09,
      "logits/chosen": -1.5942988395690918,
      "logits/rejected": -1.44364333152771,
      "logps/chosen": -315.07196044921875,
      "logps/rejected": -276.7376708984375,
      "loss": 0.5773,
      "rewards/accuracies": 0.706250011920929,
      "rewards/chosen": 0.8913241624832153,
      "rewards/margins": 0.9472495317459106,
      "rewards/rejected": -0.05592530965805054,
      "step": 180
    },
    {
      "epoch": 1.03,
      "grad_norm": 1681.3148479750444,
      "learning_rate": 5.591810408770492e-09,
      "logits/chosen": -1.5504480600357056,
      "logits/rejected": -1.3759148120880127,
      "logps/chosen": -315.5844421386719,
      "logps/rejected": -278.6695861816406,
      "loss": 0.5632,
      "rewards/accuracies": 0.7093750238418579,
      "rewards/chosen": 0.8848656415939331,
      "rewards/margins": 0.8844806551933289,
      "rewards/rejected": 0.00038505197153426707,
      "step": 190
    },
    {
      "epoch": 1.09,
      "grad_norm": 1651.7882136807318,
      "learning_rate": 5.118629073464423e-09,
      "logits/chosen": -1.571003794670105,
      "logits/rejected": -1.3608561754226685,
      "logps/chosen": -325.93023681640625,
      "logps/rejected": -282.7080993652344,
      "loss": 0.5605,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": 1.0313498973846436,
      "rewards/margins": 0.9450349807739258,
      "rewards/rejected": 0.08631500601768494,
      "step": 200
    },
    {
      "epoch": 1.14,
      "grad_norm": 1538.4386313699126,
      "learning_rate": 4.644379891605983e-09,
      "logits/chosen": -1.608812689781189,
      "logits/rejected": -1.4315342903137207,
      "logps/chosen": -324.66522216796875,
      "logps/rejected": -291.33428955078125,
      "loss": 0.5478,
      "rewards/accuracies": 0.7281249761581421,
      "rewards/chosen": 1.0752595663070679,
      "rewards/margins": 1.0428497791290283,
      "rewards/rejected": 0.03240995481610298,
      "step": 210
    },
    {
      "epoch": 1.2,
      "grad_norm": 1737.3887570467818,
      "learning_rate": 4.173331844980362e-09,
      "logits/chosen": -1.5384166240692139,
      "logits/rejected": -1.4137290716171265,
      "logps/chosen": -323.9536437988281,
      "logps/rejected": -293.42535400390625,
      "loss": 0.563,
      "rewards/accuracies": 0.6968749761581421,
      "rewards/chosen": 0.9658479690551758,
      "rewards/margins": 0.9138795137405396,
      "rewards/rejected": 0.051968496292829514,
      "step": 220
    },
    {
      "epoch": 1.25,
      "grad_norm": 1605.3661746462226,
      "learning_rate": 3.7097251001664824e-09,
      "logits/chosen": -1.537548542022705,
      "logits/rejected": -1.3787362575531006,
      "logps/chosen": -323.85125732421875,
      "logps/rejected": -286.95379638671875,
      "loss": 0.526,
      "rewards/accuracies": 0.731249988079071,
      "rewards/chosen": 1.146087408065796,
      "rewards/margins": 1.0939618349075317,
      "rewards/rejected": 0.0521254763007164,
      "step": 230
    },
    {
      "epoch": 1.3,
      "grad_norm": 1689.839854162397,
      "learning_rate": 3.2577328404292057e-09,
      "logits/chosen": -1.5391089916229248,
      "logits/rejected": -1.4084638357162476,
      "logps/chosen": -312.51373291015625,
      "logps/rejected": -285.9711608886719,
      "loss": 0.5418,
      "rewards/accuracies": 0.7093750238418579,
      "rewards/chosen": 1.0901774168014526,
      "rewards/margins": 1.016390085220337,
      "rewards/rejected": 0.07378745824098587,
      "step": 240
    },
    {
      "epoch": 1.36,
      "grad_norm": 1710.94558540331,
      "learning_rate": 2.821423700565763e-09,
      "logits/chosen": -1.5968081951141357,
      "logits/rejected": -1.4188272953033447,
      "logps/chosen": -350.68487548828125,
      "logps/rejected": -306.6036071777344,
      "loss": 0.532,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": 1.2678377628326416,
      "rewards/margins": 1.2405023574829102,
      "rewards/rejected": 0.027335500344634056,
      "step": 250
    },
    {
      "epoch": 1.41,
      "grad_norm": 1638.2367115980887,
      "learning_rate": 2.4047251428513483e-09,
      "logits/chosen": -1.6129051446914673,
      "logits/rejected": -1.4581451416015625,
      "logps/chosen": -325.2450256347656,
      "logps/rejected": -291.1476745605469,
      "loss": 0.5289,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": 1.2301806211471558,
      "rewards/margins": 1.2308820486068726,
      "rewards/rejected": -0.0007013082504272461,
      "step": 260
    },
    {
      "epoch": 1.47,
      "grad_norm": 1199.4883951774482,
      "learning_rate": 2.011388103757442e-09,
      "logits/chosen": -1.5265954732894897,
      "logits/rejected": -1.3828239440917969,
      "logps/chosen": -316.2944641113281,
      "logps/rejected": -285.7884826660156,
      "loss": 0.5191,
      "rewards/accuracies": 0.7437499761581421,
      "rewards/chosen": 1.3710923194885254,
      "rewards/margins": 1.2594387531280518,
      "rewards/rejected": 0.11165344715118408,
      "step": 270
    },
    {
      "epoch": 1.52,
      "grad_norm": 1472.2115597857592,
      "learning_rate": 1.644953229677474e-09,
      "logits/chosen": -1.600651502609253,
      "logits/rejected": -1.4179413318634033,
      "logps/chosen": -326.00335693359375,
      "logps/rejected": -284.74188232421875,
      "loss": 0.5459,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 1.3610546588897705,
      "rewards/margins": 1.2091944217681885,
      "rewards/rejected": 0.1518600881099701,
      "step": 280
    },
    {
      "epoch": 1.58,
      "grad_norm": 1566.9737970600454,
      "learning_rate": 1.308719005590957e-09,
      "logits/chosen": -1.5032551288604736,
      "logits/rejected": -1.3876453638076782,
      "logps/chosen": -318.40948486328125,
      "logps/rejected": -282.49554443359375,
      "loss": 0.5407,
      "rewards/accuracies": 0.7437499761581421,
      "rewards/chosen": 1.2658413648605347,
      "rewards/margins": 1.187675952911377,
      "rewards/rejected": 0.07816555351018906,
      "step": 290
    },
    {
      "epoch": 1.63,
      "grad_norm": 1348.7257224769698,
      "learning_rate": 1.005712063557776e-09,
      "logits/chosen": -1.6333671808242798,
      "logits/rejected": -1.455556869506836,
      "logps/chosen": -324.13885498046875,
      "logps/rejected": -290.60186767578125,
      "loss": 0.5346,
      "rewards/accuracies": 0.6968749761581421,
      "rewards/chosen": 1.1175706386566162,
      "rewards/margins": 1.0337438583374023,
      "rewards/rejected": 0.08382664620876312,
      "step": 300
    },
    {
      "epoch": 1.68,
      "grad_norm": 1356.5441208888985,
      "learning_rate": 7.386599383124321e-10,
      "logits/chosen": -1.565224051475525,
      "logits/rejected": -1.3825923204421997,
      "logps/chosen": -321.80316162109375,
      "logps/rejected": -285.7908630371094,
      "loss": 0.5304,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 1.2159234285354614,
      "rewards/margins": 1.1465200185775757,
      "rewards/rejected": 0.06940338760614395,
      "step": 310
    },
    {
      "epoch": 1.74,
      "grad_norm": 1445.3559110776998,
      "learning_rate": 5.099665152003929e-10,
      "logits/chosen": -1.5921494960784912,
      "logits/rejected": -1.3807857036590576,
      "logps/chosen": -333.7308654785156,
      "logps/rejected": -289.9362487792969,
      "loss": 0.5241,
      "rewards/accuracies": 0.7718750238418579,
      "rewards/chosen": 1.3256893157958984,
      "rewards/margins": 1.292041540145874,
      "rewards/rejected": 0.03364778310060501,
      "step": 320
    },
    {
      "epoch": 1.79,
      "grad_norm": 1681.5042999261696,
      "learning_rate": 3.216903914633745e-10,
      "logits/chosen": -1.5627129077911377,
      "logits/rejected": -1.4408833980560303,
      "logps/chosen": -325.2505187988281,
      "logps/rejected": -296.106201171875,
      "loss": 0.5429,
      "rewards/accuracies": 0.7562500238418579,
      "rewards/chosen": 1.165374517440796,
      "rewards/margins": 1.0651426315307617,
      "rewards/rejected": 0.1002318263053894,
      "step": 330
    },
    {
      "epoch": 1.85,
      "grad_norm": 1536.75287567762,
      "learning_rate": 1.7552634565570324e-10,
      "logits/chosen": -1.5574743747711182,
      "logits/rejected": -1.3901411294937134,
      "logps/chosen": -329.89141845703125,
      "logps/rejected": -292.8751525878906,
      "loss": 0.5342,
      "rewards/accuracies": 0.753125011920929,
      "rewards/chosen": 1.4129165410995483,
      "rewards/margins": 1.3112914562225342,
      "rewards/rejected": 0.10162514448165894,
      "step": 340
    },
    {
      "epoch": 1.9,
      "grad_norm": 1492.8399510840338,
      "learning_rate": 7.279008199590543e-11,
      "logits/chosen": -1.5503973960876465,
      "logits/rejected": -1.3889100551605225,
      "logps/chosen": -326.42120361328125,
      "logps/rejected": -291.9585266113281,
      "loss": 0.5261,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 1.3398044109344482,
      "rewards/margins": 1.2421011924743652,
      "rewards/rejected": 0.09770330041646957,
      "step": 350
    },
    {
      "epoch": 1.96,
      "grad_norm": 1452.281513333118,
      "learning_rate": 1.4406386978128017e-11,
      "logits/chosen": -1.6207876205444336,
      "logits/rejected": -1.424393653869629,
      "logps/chosen": -331.06390380859375,
      "logps/rejected": -291.6929626464844,
      "loss": 0.5043,
      "rewards/accuracies": 0.7906249761581421,
      "rewards/chosen": 1.518845558166504,
      "rewards/margins": 1.381410837173462,
      "rewards/rejected": 0.13743488490581512,
      "step": 360
    },
    {
      "epoch": 2.0,
      "step": 368,
      "total_flos": 0.0,
      "train_loss": 0.6161670185949492,
      "train_runtime": 9955.6802,
      "train_samples_per_second": 9.461,
      "train_steps_per_second": 0.037
    }
  ],
  "logging_steps": 10,
  "max_steps": 368,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 100,
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}