zephyr-7b-dpo-full / trainer_state.json

Model save

9c5c1e5 verified 4 months ago

23.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9988623435722411,
	"eval_steps": 10000000,
	"global_step": 439,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 33.30332403665468,
	"learning_rate": 2.2727272727272727e-09,
	"logits/chosen": -1.6768856048583984,
	"logits/rejected": -1.7259055376052856,
	"logps/chosen": -1.2793102264404297,
	"logps/rejected": -1.2162058353424072,
	"loss": 1.3133,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.02,
	"grad_norm": 37.64303926905523,
	"learning_rate": 2.2727272727272725e-08,
	"logits/chosen": -1.7033135890960693,
	"logits/rejected": -1.668673038482666,
	"logps/chosen": -1.2131016254425049,
	"logps/rejected": -1.22050142288208,
	"loss": 1.313,
	"rewards/accuracies": 0.4513888955116272,
	"rewards/chosen": 0.00040783319855108857,
	"rewards/margins": -8.263149356935173e-05,
	"rewards/rejected": 0.0004904646775685251,
	"step": 10
	},
	{
	"epoch": 0.05,
	"grad_norm": 38.69260337999141,
	"learning_rate": 4.545454545454545e-08,
	"logits/chosen": -1.7795250415802002,
	"logits/rejected": -1.7348783016204834,
	"logps/chosen": -1.1448484659194946,
	"logps/rejected": -1.1852957010269165,
	"loss": 1.3122,
	"rewards/accuracies": 0.5062500238418579,
	"rewards/chosen": -0.003251913469284773,
	"rewards/margins": 0.0004202231648378074,
	"rewards/rejected": -0.003672136692330241,
	"step": 20
	},
	{
	"epoch": 0.07,
	"grad_norm": 44.09359407998382,
	"learning_rate": 6.818181818181817e-08,
	"logits/chosen": -1.7442439794540405,
	"logits/rejected": -1.6752439737319946,
	"logps/chosen": -1.1954559087753296,
	"logps/rejected": -1.248280644416809,
	"loss": 1.3059,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -0.025108838453888893,
	"rewards/margins": 0.01119022723287344,
	"rewards/rejected": -0.03629906848073006,
	"step": 30
	},
	{
	"epoch": 0.09,
	"grad_norm": 28.883029165176804,
	"learning_rate": 9.09090909090909e-08,
	"logits/chosen": -1.7305904626846313,
	"logits/rejected": -1.6642875671386719,
	"logps/chosen": -1.2533624172210693,
	"logps/rejected": -1.3383153676986694,
	"loss": 1.2922,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -0.09282750636339188,
	"rewards/margins": 0.06525905430316925,
	"rewards/rejected": -0.15808656811714172,
	"step": 40
	},
	{
	"epoch": 0.11,
	"grad_norm": 36.39900209589975,
	"learning_rate": 9.994307990108962e-08,
	"logits/chosen": -1.690720796585083,
	"logits/rejected": -1.625451683998108,
	"logps/chosen": -1.3044583797454834,
	"logps/rejected": -1.3643444776535034,
	"loss": 1.2643,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.19274269044399261,
	"rewards/margins": 0.0795869454741478,
	"rewards/rejected": -0.2723296284675598,
	"step": 50
	},
	{
	"epoch": 0.14,
	"grad_norm": 43.081578827458706,
	"learning_rate": 9.959570405988094e-08,
	"logits/chosen": -1.71735417842865,
	"logits/rejected": -1.6361076831817627,
	"logps/chosen": -1.3119524717330933,
	"logps/rejected": -1.4046932458877563,
	"loss": 1.2541,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.4057086110115051,
	"rewards/margins": 0.0816243588924408,
	"rewards/rejected": -0.4873329699039459,
	"step": 60
	},
	{
	"epoch": 0.16,
	"grad_norm": 33.06897498171632,
	"learning_rate": 9.893476820924666e-08,
	"logits/chosen": -1.7922325134277344,
	"logits/rejected": -1.7017757892608643,
	"logps/chosen": -1.5047810077667236,
	"logps/rejected": -1.630091667175293,
	"loss": 1.2355,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.5838777422904968,
	"rewards/margins": 0.1572917252779007,
	"rewards/rejected": -0.7411695718765259,
	"step": 70
	},
	{
	"epoch": 0.18,
	"grad_norm": 37.24284057004877,
	"learning_rate": 9.796445099843647e-08,
	"logits/chosen": -1.774518370628357,
	"logits/rejected": -1.6856935024261475,
	"logps/chosen": -1.5832115411758423,
	"logps/rejected": -1.7514270544052124,
	"loss": 1.232,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.7524863481521606,
	"rewards/margins": 0.21537098288536072,
	"rewards/rejected": -0.9678572416305542,
	"step": 80
	},
	{
	"epoch": 0.2,
	"grad_norm": 45.064021238231845,
	"learning_rate": 9.669088708527066e-08,
	"logits/chosen": -1.7184202671051025,
	"logits/rejected": -1.6467373371124268,
	"logps/chosen": -1.7363929748535156,
	"logps/rejected": -1.8083902597427368,
	"loss": 1.2104,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -1.0013912916183472,
	"rewards/margins": 0.12990526854991913,
	"rewards/rejected": -1.1312966346740723,
	"step": 90
	},
	{
	"epoch": 0.23,
	"grad_norm": 44.286763175528534,
	"learning_rate": 9.512212835085849e-08,
	"logits/chosen": -1.757889986038208,
	"logits/rejected": -1.6645339727401733,
	"logps/chosen": -1.779813528060913,
	"logps/rejected": -1.9353383779525757,
	"loss": 1.1819,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -1.2227165699005127,
	"rewards/margins": 0.2256297618150711,
	"rewards/rejected": -1.448346495628357,
	"step": 100
	},
	{
	"epoch": 0.25,
	"grad_norm": 43.36692624974112,
	"learning_rate": 9.326809299301306e-08,
	"logits/chosen": -1.761940360069275,
	"logits/rejected": -1.6550146341323853,
	"logps/chosen": -1.8854389190673828,
	"logps/rejected": -2.1229450702667236,
	"loss": 1.1674,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -1.369593620300293,
	"rewards/margins": 0.371805876493454,
	"rewards/rejected": -1.7413995265960693,
	"step": 110
	},
	{
	"epoch": 0.27,
	"grad_norm": 41.78554813342914,
	"learning_rate": 9.114050282021158e-08,
	"logits/chosen": -1.7491047382354736,
	"logits/rejected": -1.6867637634277344,
	"logps/chosen": -1.8475677967071533,
	"logps/rejected": -2.0627474784851074,
	"loss": 1.1591,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -1.400010108947754,
	"rewards/margins": 0.3355749249458313,
	"rewards/rejected": -1.7355849742889404,
	"step": 120
	},
	{
	"epoch": 0.3,
	"grad_norm": 40.42754129950971,
	"learning_rate": 8.875280914254802e-08,
	"logits/chosen": -1.737173080444336,
	"logits/rejected": -1.644561529159546,
	"logps/chosen": -2.0521700382232666,
	"logps/rejected": -2.296677827835083,
	"loss": 1.1348,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -1.7186797857284546,
	"rewards/margins": 0.43216562271118164,
	"rewards/rejected": -2.1508452892303467,
	"step": 130
	},
	{
	"epoch": 0.32,
	"grad_norm": 39.13812568144021,
	"learning_rate": 8.612010772821971e-08,
	"logits/chosen": -1.7612278461456299,
	"logits/rejected": -1.715679407119751,
	"logps/chosen": -2.0781049728393555,
	"logps/rejected": -2.2759194374084473,
	"loss": 1.127,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -1.7284520864486694,
	"rewards/margins": 0.4454485774040222,
	"rewards/rejected": -2.173900604248047,
	"step": 140
	},
	{
	"epoch": 0.34,
	"grad_norm": 37.596667789585375,
	"learning_rate": 8.325904336322055e-08,
	"logits/chosen": -1.735419511795044,
	"logits/rejected": -1.6814868450164795,
	"logps/chosen": -2.305412769317627,
	"logps/rejected": -2.55448317527771,
	"loss": 1.1399,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -2.2760961055755615,
	"rewards/margins": 0.4037933945655823,
	"rewards/rejected": -2.679889440536499,
	"step": 150
	},
	{
	"epoch": 0.36,
	"grad_norm": 37.85769539137667,
	"learning_rate": 8.01877046176447e-08,
	"logits/chosen": -1.6751991510391235,
	"logits/rejected": -1.6064836978912354,
	"logps/chosen": -2.5598020553588867,
	"logps/rejected": -2.8157076835632324,
	"loss": 1.09,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -2.763003349304199,
	"rewards/margins": 0.40903931856155396,
	"rewards/rejected": -3.1720428466796875,
	"step": 160
	},
	{
	"epoch": 0.39,
	"grad_norm": 33.932219318133306,
	"learning_rate": 7.692550948392249e-08,
	"logits/chosen": -1.7231628894805908,
	"logits/rejected": -1.6755987405776978,
	"logps/chosen": -2.624762535095215,
	"logps/rejected": -2.9136133193969727,
	"loss": 1.1053,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -2.8290135860443115,
	"rewards/margins": 0.5568121671676636,
	"rewards/rejected": -3.3858256340026855,
	"step": 170
	},
	{
	"epoch": 0.41,
	"grad_norm": 48.11500069751816,
	"learning_rate": 7.349308261002021e-08,
	"logits/chosen": -1.6858348846435547,
	"logits/rejected": -1.6378986835479736,
	"logps/chosen": -2.640817165374756,
	"logps/rejected": -2.949113368988037,
	"loss": 1.0837,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -2.887462615966797,
	"rewards/margins": 0.5172919034957886,
	"rewards/rejected": -3.404754638671875,
	"step": 180
	},
	{
	"epoch": 0.43,
	"grad_norm": 42.33388198011932,
	"learning_rate": 6.991212490377531e-08,
	"logits/chosen": -1.7423484325408936,
	"logits/rejected": -1.7037559747695923,
	"logps/chosen": -2.6472008228302,
	"logps/rejected": -3.0077877044677734,
	"loss": 1.0335,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -2.834195613861084,
	"rewards/margins": 0.6780903339385986,
	"rewards/rejected": -3.5122859477996826,
	"step": 190
	},
	{
	"epoch": 0.46,
	"grad_norm": 49.65676542149092,
	"learning_rate": 6.620527633276978e-08,
	"logits/chosen": -1.6741564273834229,
	"logits/rejected": -1.6151821613311768,
	"logps/chosen": -2.735678195953369,
	"logps/rejected": -3.225632905960083,
	"loss": 1.0663,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -3.0824506282806396,
	"rewards/margins": 0.80633145570755,
	"rewards/rejected": -3.888781785964966,
	"step": 200
	},
	{
	"epoch": 0.48,
	"grad_norm": 46.53275655997813,
	"learning_rate": 6.239597278716581e-08,
	"logits/chosen": -1.7146323919296265,
	"logits/rejected": -1.6657183170318604,
	"logps/chosen": -3.098931312561035,
	"logps/rejected": -3.467923641204834,
	"loss": 1.0287,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -3.707202911376953,
	"rewards/margins": 0.7793115377426147,
	"rewards/rejected": -4.486514091491699,
	"step": 210
	},
	{
	"epoch": 0.5,
	"grad_norm": 47.77625681519385,
	"learning_rate": 5.8508297910462456e-08,
	"logits/chosen": -1.6560382843017578,
	"logits/rejected": -1.5879056453704834,
	"logps/chosen": -3.1243553161621094,
	"logps/rejected": -3.6013519763946533,
	"loss": 1.032,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -3.921679735183716,
	"rewards/margins": 0.8384466171264648,
	"rewards/rejected": -4.76012659072876,
	"step": 220
	},
	{
	"epoch": 0.52,
	"grad_norm": 45.3152158322423,
	"learning_rate": 5.456683083494731e-08,
	"logits/chosen": -1.6423381567001343,
	"logits/rejected": -1.6075971126556396,
	"logps/chosen": -3.002626419067383,
	"logps/rejected": -3.339411497116089,
	"loss": 1.068,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -3.6176345348358154,
	"rewards/margins": 0.6260865330696106,
	"rewards/rejected": -4.2437214851379395,
	"step": 230
	},
	{
	"epoch": 0.55,
	"grad_norm": 50.18712381426658,
	"learning_rate": 5.059649078450834e-08,
	"logits/chosen": -1.6221996545791626,
	"logits/rejected": -1.587894082069397,
	"logps/chosen": -2.9972426891326904,
	"logps/rejected": -3.4068732261657715,
	"loss": 1.0045,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -3.657778263092041,
	"rewards/margins": 0.6951833963394165,
	"rewards/rejected": -4.352961540222168,
	"step": 240
	},
	{
	"epoch": 0.57,
	"grad_norm": 42.94625970616266,
	"learning_rate": 4.6622379527277186e-08,
	"logits/chosen": -1.6361802816390991,
	"logits/rejected": -1.5883018970489502,
	"logps/chosen": -3.0472984313964844,
	"logps/rejected": -3.4067275524139404,
	"loss": 1.0159,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -3.816819429397583,
	"rewards/margins": 0.65269935131073,
	"rewards/rejected": -4.469518661499023,
	"step": 250
	},
	{
	"epoch": 0.59,
	"grad_norm": 49.81189434860217,
	"learning_rate": 4.26696226741691e-08,
	"logits/chosen": -1.6441590785980225,
	"logits/rejected": -1.5848346948623657,
	"logps/chosen": -3.2412009239196777,
	"logps/rejected": -3.667572021484375,
	"loss": 1.0333,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -4.0167555809021,
	"rewards/margins": 0.8128072619438171,
	"rewards/rejected": -4.829562664031982,
	"step": 260
	},
	{
	"epoch": 0.61,
	"grad_norm": 46.698998113891435,
	"learning_rate": 3.876321082668098e-08,
	"logits/chosen": -1.6987736225128174,
	"logits/rejected": -1.6376842260360718,
	"logps/chosen": -3.1670312881469727,
	"logps/rejected": -3.625418186187744,
	"loss": 1.0046,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -3.857081174850464,
	"rewards/margins": 0.8981560468673706,
	"rewards/rejected": -4.755237579345703,
	"step": 270
	},
	{
	"epoch": 0.64,
	"grad_norm": 54.35348471111713,
	"learning_rate": 3.492784157826244e-08,
	"logits/chosen": -1.63980233669281,
	"logits/rejected": -1.552004337310791,
	"logps/chosen": -3.2830092906951904,
	"logps/rejected": -3.8152382373809814,
	"loss": 1.0119,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -4.120265483856201,
	"rewards/margins": 0.9936790466308594,
	"rewards/rejected": -5.113945007324219,
	"step": 280
	},
	{
	"epoch": 0.66,
	"grad_norm": 44.812750561614926,
	"learning_rate": 3.118776336817812e-08,
	"logits/chosen": -1.6625276803970337,
	"logits/rejected": -1.6122783422470093,
	"logps/chosen": -3.191256284713745,
	"logps/rejected": -3.756882429122925,
	"loss": 0.9859,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -3.97601580619812,
	"rewards/margins": 1.1168193817138672,
	"rewards/rejected": -5.092835426330566,
	"step": 290
	},
	{
	"epoch": 0.68,
	"grad_norm": 45.89134253017904,
	"learning_rate": 2.7566622175067443e-08,
	"logits/chosen": -1.6413261890411377,
	"logits/rejected": -1.5825086832046509,
	"logps/chosen": -3.339484691619873,
	"logps/rejected": -3.9588654041290283,
	"loss": 0.994,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -4.261802673339844,
	"rewards/margins": 1.0827885866165161,
	"rewards/rejected": -5.3445916175842285,
	"step": 300
	},
	{
	"epoch": 0.71,
	"grad_norm": 47.840562340740895,
	"learning_rate": 2.408731201945432e-08,
	"logits/chosen": -1.64263117313385,
	"logits/rejected": -1.6013950109481812,
	"logps/chosen": -3.251277446746826,
	"logps/rejected": -3.651395082473755,
	"loss": 1.0008,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -4.11476469039917,
	"rewards/margins": 0.7599252462387085,
	"rewards/rejected": -4.874690532684326,
	"step": 310
	},
	{
	"epoch": 0.73,
	"grad_norm": 51.79356167073485,
	"learning_rate": 2.0771830220378112e-08,
	"logits/chosen": -1.5991486310958862,
	"logits/rejected": -1.5396713018417358,
	"logps/chosen": -3.2509543895721436,
	"logps/rejected": -3.6364498138427734,
	"loss": 1.0066,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -4.056139945983887,
	"rewards/margins": 0.7866916060447693,
	"rewards/rejected": -4.842831611633301,
	"step": 320
	},
	{
	"epoch": 0.75,
	"grad_norm": 43.99284684689101,
	"learning_rate": 1.7641138321260257e-08,
	"logits/chosen": -1.6334537267684937,
	"logits/rejected": -1.5692901611328125,
	"logps/chosen": -3.158041477203369,
	"logps/rejected": -3.8241424560546875,
	"loss": 0.9807,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -3.9483726024627686,
	"rewards/margins": 1.2771327495574951,
	"rewards/rejected": -5.225505352020264,
	"step": 330
	},
	{
	"epoch": 0.77,
	"grad_norm": 50.47520523412627,
	"learning_rate": 1.4715029564277793e-08,
	"logits/chosen": -1.6923463344573975,
	"logits/rejected": -1.6500104665756226,
	"logps/chosen": -3.0949554443359375,
	"logps/rejected": -3.6954338550567627,
	"loss": 1.0051,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -3.7805895805358887,
	"rewards/margins": 1.1268298625946045,
	"rewards/rejected": -4.907419681549072,
	"step": 340
	},
	{
	"epoch": 0.8,
	"grad_norm": 48.63775480340643,
	"learning_rate": 1.2012003751113343e-08,
	"logits/chosen": -1.6796951293945312,
	"logits/rejected": -1.6264684200286865,
	"logps/chosen": -3.3736748695373535,
	"logps/rejected": -3.9650447368621826,
	"loss": 0.9726,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -4.423010349273682,
	"rewards/margins": 1.0823583602905273,
	"rewards/rejected": -5.505368709564209,
	"step": 350
	},
	{
	"epoch": 0.82,
	"grad_norm": 55.26630420954737,
	"learning_rate": 9.549150281252633e-09,
	"logits/chosen": -1.6259968280792236,
	"logits/rejected": -1.5858485698699951,
	"logps/chosen": -3.211542844772339,
	"logps/rejected": -3.735614776611328,
	"loss": 0.9729,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -4.078815460205078,
	"rewards/margins": 0.9446828961372375,
	"rewards/rejected": -5.02349853515625,
	"step": 360
	},
	{
	"epoch": 0.84,
	"grad_norm": 51.52261591377872,
	"learning_rate": 7.3420401072985306e-09,
	"logits/chosen": -1.6755279302597046,
	"logits/rejected": -1.6221554279327393,
	"logps/chosen": -3.299112319946289,
	"logps/rejected": -3.911120653152466,
	"loss": 0.9649,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -4.168996810913086,
	"rewards/margins": 1.1090896129608154,
	"rewards/rejected": -5.2780866622924805,
	"step": 370
	},
	{
	"epoch": 0.86,
	"grad_norm": 51.72886520205544,
	"learning_rate": 5.404627290395369e-09,
	"logits/chosen": -1.6374752521514893,
	"logits/rejected": -1.5786619186401367,
	"logps/chosen": -3.220484972000122,
	"logps/rejected": -3.803584337234497,
	"loss": 0.968,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -4.061758518218994,
	"rewards/margins": 1.0862071514129639,
	"rewards/rejected": -5.147965431213379,
	"step": 380
	},
	{
	"epoch": 0.89,
	"grad_norm": 55.56376010319163,
	"learning_rate": 3.74916077816162e-09,
	"logits/chosen": -1.6384235620498657,
	"logits/rejected": -1.5836341381072998,
	"logps/chosen": -3.2395005226135254,
	"logps/rejected": -3.746983051300049,
	"loss": 1.0011,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -4.179410934448242,
	"rewards/margins": 0.982707142829895,
	"rewards/rejected": -5.162117958068848,
	"step": 390
	},
	{
	"epoch": 0.91,
	"grad_norm": 54.81143409505458,
	"learning_rate": 2.386106962899165e-09,
	"logits/chosen": -1.5698174238204956,
	"logits/rejected": -1.5115009546279907,
	"logps/chosen": -3.4176878929138184,
	"logps/rejected": -3.958037853240967,
	"loss": 0.9695,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -4.382534027099609,
	"rewards/margins": 0.9680202603340149,
	"rewards/rejected": -5.350554466247559,
	"step": 400
	},
	{
	"epoch": 0.93,
	"grad_norm": 56.75402221437199,
	"learning_rate": 1.3240835096913706e-09,
	"logits/chosen": -1.594696283340454,
	"logits/rejected": -1.502890944480896,
	"logps/chosen": -3.213305711746216,
	"logps/rejected": -3.921264171600342,
	"loss": 1.0286,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -4.083509922027588,
	"rewards/margins": 1.2770874500274658,
	"rewards/rejected": -5.360597133636475,
	"step": 410
	},
	{
	"epoch": 0.96,
	"grad_norm": 47.085112169528884,
	"learning_rate": 5.698048727497462e-10,
	"logits/chosen": -1.6298091411590576,
	"logits/rejected": -1.5658090114593506,
	"logps/chosen": -3.3380351066589355,
	"logps/rejected": -3.9660251140594482,
	"loss": 0.983,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -4.293475151062012,
	"rewards/margins": 1.1220663785934448,
	"rewards/rejected": -5.415541648864746,
	"step": 420
	},
	{
	"epoch": 0.98,
	"grad_norm": 46.70771599324875,
	"learning_rate": 1.2803984447259387e-10,
	"logits/chosen": -1.6368719339370728,
	"logits/rejected": -1.5942411422729492,
	"logps/chosen": -3.3361122608184814,
	"logps/rejected": -3.98066782951355,
	"loss": 0.9434,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -4.3075456619262695,
	"rewards/margins": 1.1938055753707886,
	"rewards/rejected": -5.501351356506348,
	"step": 430
	},
	{
	"epoch": 1.0,
	"step": 439,
	"total_flos": 0.0,
	"train_loss": 1.0809600353240967,
	"train_runtime": 6838.8864,
	"train_samples_per_second": 8.223,
	"train_steps_per_second": 0.064
	}
	],
	"logging_steps": 10,
	"max_steps": 439,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}