Jimmy19991222

Upload folder using huggingface_hub

00c02a8 verified 4 months ago

50.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9982631930527722,
	"eval_steps": 400,
	"global_step": 467,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01068804275217101,
	"grad_norm": 48.927791324930695,
	"learning_rate": 1.0638297872340425e-07,
	"logits/chosen": -1.0180829763412476,
	"logits/rejected": -0.9883173704147339,
	"logps/chosen": -0.2738715410232544,
	"logps/rejected": -0.2716783285140991,
	"loss": 3.0574,
	"rewards/accuracies": 0.4375,
	"rewards/chosen": -2.738715648651123,
	"rewards/margins": -0.021932203322649002,
	"rewards/rejected": -2.716783046722412,
	"step": 5
	},
	{
	"epoch": 0.02137608550434202,
	"grad_norm": 39.813279548661036,
	"learning_rate": 2.127659574468085e-07,
	"logits/chosen": -1.0492197275161743,
	"logits/rejected": -0.9815438985824585,
	"logps/chosen": -0.2942040264606476,
	"logps/rejected": -0.29975026845932007,
	"loss": 3.0033,
	"rewards/accuracies": 0.5062500238418579,
	"rewards/chosen": -2.942039966583252,
	"rewards/margins": 0.055462419986724854,
	"rewards/rejected": -2.997502326965332,
	"step": 10
	},
	{
	"epoch": 0.03206412825651302,
	"grad_norm": 54.64580630838249,
	"learning_rate": 3.1914893617021275e-07,
	"logits/chosen": -0.9780637621879578,
	"logits/rejected": -0.9978879690170288,
	"logps/chosen": -0.2642993927001953,
	"logps/rejected": -0.3006458878517151,
	"loss": 2.9877,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -2.642993688583374,
	"rewards/margins": 0.363465279340744,
	"rewards/rejected": -3.0064589977264404,
	"step": 15
	},
	{
	"epoch": 0.04275217100868404,
	"grad_norm": 78.63474777212464,
	"learning_rate": 4.25531914893617e-07,
	"logits/chosen": -0.9655851125717163,
	"logits/rejected": -0.9391099810600281,
	"logps/chosen": -0.2776910662651062,
	"logps/rejected": -0.291360080242157,
	"loss": 2.9252,
	"rewards/accuracies": 0.512499988079071,
	"rewards/chosen": -2.7769107818603516,
	"rewards/margins": 0.13669000566005707,
	"rewards/rejected": -2.9136006832122803,
	"step": 20
	},
	{
	"epoch": 0.053440213760855046,
	"grad_norm": 53.858972431024775,
	"learning_rate": 5.319148936170212e-07,
	"logits/chosen": -1.0097562074661255,
	"logits/rejected": -0.9812997579574585,
	"logps/chosen": -0.2714676260948181,
	"logps/rejected": -0.27822521328926086,
	"loss": 3.0821,
	"rewards/accuracies": 0.4937500059604645,
	"rewards/chosen": -2.7146763801574707,
	"rewards/margins": 0.06757592409849167,
	"rewards/rejected": -2.782252073287964,
	"step": 25
	},
	{
	"epoch": 0.06412825651302605,
	"grad_norm": 44.312475927746796,
	"learning_rate": 6.382978723404255e-07,
	"logits/chosen": -0.9986146688461304,
	"logits/rejected": -0.9536568522453308,
	"logps/chosen": -0.27314493060112,
	"logps/rejected": -0.27925461530685425,
	"loss": 2.937,
	"rewards/accuracies": 0.42500001192092896,
	"rewards/chosen": -2.731449604034424,
	"rewards/margins": 0.06109660863876343,
	"rewards/rejected": -2.792546033859253,
	"step": 30
	},
	{
	"epoch": 0.07481629926519706,
	"grad_norm": 55.321940182511284,
	"learning_rate": 7.446808510638297e-07,
	"logits/chosen": -1.0669300556182861,
	"logits/rejected": -0.9896968603134155,
	"logps/chosen": -0.29428571462631226,
	"logps/rejected": -0.3205253481864929,
	"loss": 2.905,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -2.942857265472412,
	"rewards/margins": 0.26239633560180664,
	"rewards/rejected": -3.2052536010742188,
	"step": 35
	},
	{
	"epoch": 0.08550434201736808,
	"grad_norm": 53.68098989474069,
	"learning_rate": 8.51063829787234e-07,
	"logits/chosen": -1.0166269540786743,
	"logits/rejected": -0.9719806909561157,
	"logps/chosen": -0.2796934247016907,
	"logps/rejected": -0.32216984033584595,
	"loss": 2.916,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -2.796934127807617,
	"rewards/margins": 0.42476367950439453,
	"rewards/rejected": -3.221698045730591,
	"step": 40
	},
	{
	"epoch": 0.09619238476953908,
	"grad_norm": 36.765236755711314,
	"learning_rate": 9.574468085106384e-07,
	"logits/chosen": -1.0554900169372559,
	"logits/rejected": -1.0124839544296265,
	"logps/chosen": -0.3013826012611389,
	"logps/rejected": -0.3502373695373535,
	"loss": 2.9447,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -3.0138256549835205,
	"rewards/margins": 0.4885478913784027,
	"rewards/rejected": -3.5023739337921143,
	"step": 45
	},
	{
	"epoch": 0.10688042752171009,
	"grad_norm": 72.12342853911701,
	"learning_rate": 9.998741174712533e-07,
	"logits/chosen": -1.033050298690796,
	"logits/rejected": -0.9839521646499634,
	"logps/chosen": -0.3049773573875427,
	"logps/rejected": -0.3382193446159363,
	"loss": 2.976,
	"rewards/accuracies": 0.48750001192092896,
	"rewards/chosen": -3.0497734546661377,
	"rewards/margins": 0.33241981267929077,
	"rewards/rejected": -3.382193088531494,
	"step": 50
	},
	{
	"epoch": 0.11756847027388109,
	"grad_norm": 67.04896260966717,
	"learning_rate": 9.991050648838675e-07,
	"logits/chosen": -1.0543005466461182,
	"logits/rejected": -1.0193541049957275,
	"logps/chosen": -0.2847168445587158,
	"logps/rejected": -0.34575051069259644,
	"loss": 2.7924,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -2.847168445587158,
	"rewards/margins": 0.6103365421295166,
	"rewards/rejected": -3.457504987716675,
	"step": 55
	},
	{
	"epoch": 0.1282565130260521,
	"grad_norm": 53.20515583895435,
	"learning_rate": 9.97637968732563e-07,
	"logits/chosen": -1.1007188558578491,
	"logits/rejected": -1.066847801208496,
	"logps/chosen": -0.32495683431625366,
	"logps/rejected": -0.3465155363082886,
	"loss": 2.8738,
	"rewards/accuracies": 0.5687500238418579,
	"rewards/chosen": -3.249568462371826,
	"rewards/margins": 0.215586856007576,
	"rewards/rejected": -3.4651551246643066,
	"step": 60
	},
	{
	"epoch": 0.13894455577822312,
	"grad_norm": 54.54015013992033,
	"learning_rate": 9.954748808839674e-07,
	"logits/chosen": -1.0070468187332153,
	"logits/rejected": -0.9784091711044312,
	"logps/chosen": -0.37832310795783997,
	"logps/rejected": -0.43590840697288513,
	"loss": 2.7895,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -3.783231258392334,
	"rewards/margins": 0.5758528113365173,
	"rewards/rejected": -4.359084129333496,
	"step": 65
	},
	{
	"epoch": 0.14963259853039412,
	"grad_norm": 38.242775225934125,
	"learning_rate": 9.926188266120295e-07,
	"logits/chosen": -1.0234776735305786,
	"logits/rejected": -0.9988471269607544,
	"logps/chosen": -0.3544539511203766,
	"logps/rejected": -0.4332161545753479,
	"loss": 2.8516,
	"rewards/accuracies": 0.581250011920929,
	"rewards/chosen": -3.5445396900177,
	"rewards/margins": 0.7876222729682922,
	"rewards/rejected": -4.332161903381348,
	"step": 70
	},
	{
	"epoch": 0.16032064128256512,
	"grad_norm": 70.74640041136536,
	"learning_rate": 9.890738003669027e-07,
	"logits/chosen": -0.9775687456130981,
	"logits/rejected": -0.9074035882949829,
	"logps/chosen": -0.3704521059989929,
	"logps/rejected": -0.42546525597572327,
	"loss": 2.7815,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -3.704521656036377,
	"rewards/margins": 0.5501310229301453,
	"rewards/rejected": -4.254652500152588,
	"step": 75
	},
	{
	"epoch": 0.17100868403473615,
	"grad_norm": 46.9909884312478,
	"learning_rate": 9.848447601883433e-07,
	"logits/chosen": -0.9548114538192749,
	"logits/rejected": -0.94190514087677,
	"logps/chosen": -0.35945671796798706,
	"logps/rejected": -0.4592272639274597,
	"loss": 2.7108,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": -3.594567060470581,
	"rewards/margins": 0.9977054595947266,
	"rewards/rejected": -4.592272758483887,
	"step": 80
	},
	{
	"epoch": 0.18169672678690715,
	"grad_norm": 54.79418392154241,
	"learning_rate": 9.799376207714444e-07,
	"logits/chosen": -0.9647032618522644,
	"logits/rejected": -0.9432573318481445,
	"logps/chosen": -0.3421172797679901,
	"logps/rejected": -0.4004732072353363,
	"loss": 2.6569,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -3.421172618865967,
	"rewards/margins": 0.5835592746734619,
	"rewards/rejected": -4.00473165512085,
	"step": 85
	},
	{
	"epoch": 0.19238476953907815,
	"grad_norm": 63.87918692389446,
	"learning_rate": 9.743592451943998e-07,
	"logits/chosen": -1.0345466136932373,
	"logits/rejected": -0.9992335438728333,
	"logps/chosen": -0.4216434061527252,
	"logps/rejected": -0.5047457218170166,
	"loss": 2.8483,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -4.216434001922607,
	"rewards/margins": 0.8310235142707825,
	"rewards/rejected": -5.047457695007324,
	"step": 90
	},
	{
	"epoch": 0.20307281229124916,
	"grad_norm": 53.84055400604519,
	"learning_rate": 9.681174353198686e-07,
	"logits/chosen": -1.0933572053909302,
	"logits/rejected": -1.012095332145691,
	"logps/chosen": -0.4486677050590515,
	"logps/rejected": -0.4948577880859375,
	"loss": 2.7206,
	"rewards/accuracies": 0.5687500238418579,
	"rewards/chosen": -4.4866766929626465,
	"rewards/margins": 0.46190088987350464,
	"rewards/rejected": -4.948577404022217,
	"step": 95
	},
	{
	"epoch": 0.21376085504342018,
	"grad_norm": 69.39656295840837,
	"learning_rate": 9.612209208833646e-07,
	"logits/chosen": -0.9949450492858887,
	"logits/rejected": -0.9710448384284973,
	"logps/chosen": -0.42737340927124023,
	"logps/rejected": -0.511344850063324,
	"loss": 2.7353,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -4.273734092712402,
	"rewards/margins": 0.8397142291069031,
	"rewards/rejected": -5.113448143005371,
	"step": 100
	},
	{
	"epoch": 0.22444889779559118,
	"grad_norm": 63.49627205534197,
	"learning_rate": 9.536793472839324e-07,
	"logits/chosen": -1.00840425491333,
	"logits/rejected": -0.9560264348983765,
	"logps/chosen": -0.4261465072631836,
	"logps/rejected": -0.5318101644515991,
	"loss": 2.6988,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -4.261464595794678,
	"rewards/margins": 1.0566365718841553,
	"rewards/rejected": -5.318101406097412,
	"step": 105
	},
	{
	"epoch": 0.23513694054776219,
	"grad_norm": 67.07988857179406,
	"learning_rate": 9.455032620941839e-07,
	"logits/chosen": -0.9696318507194519,
	"logits/rejected": -0.9108623266220093,
	"logps/chosen": -0.48374947905540466,
	"logps/rejected": -0.6151714324951172,
	"loss": 2.6096,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -4.837494373321533,
	"rewards/margins": 1.3142198324203491,
	"rewards/rejected": -6.151714324951172,
	"step": 110
	},
	{
	"epoch": 0.2458249832999332,
	"grad_norm": 80.4417839343177,
	"learning_rate": 9.367041003085648e-07,
	"logits/chosen": -1.033552646636963,
	"logits/rejected": -0.9741662740707397,
	"logps/chosen": -0.5227991938591003,
	"logps/rejected": -0.5981119275093079,
	"loss": 2.4723,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -5.227993011474609,
	"rewards/margins": 0.7531263828277588,
	"rewards/rejected": -5.981118202209473,
	"step": 115
	},
	{
	"epoch": 0.2565130260521042,
	"grad_norm": 67.69889462049662,
	"learning_rate": 9.272941683504808e-07,
	"logits/chosen": -0.9916391372680664,
	"logits/rejected": -0.9028812646865845,
	"logps/chosen": -0.5420633554458618,
	"logps/rejected": -0.7466092705726624,
	"loss": 2.377,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -5.420632839202881,
	"rewards/margins": 2.0454587936401367,
	"rewards/rejected": -7.466092109680176,
	"step": 120
	},
	{
	"epoch": 0.26720106880427524,
	"grad_norm": 64.90166370238528,
	"learning_rate": 9.172866268606513e-07,
	"logits/chosen": -1.0659786462783813,
	"logits/rejected": -1.0236841440200806,
	"logps/chosen": -0.6124440431594849,
	"logps/rejected": -0.7124758958816528,
	"loss": 2.2955,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -6.1244401931762695,
	"rewards/margins": 1.0003182888031006,
	"rewards/rejected": -7.124758720397949,
	"step": 125
	},
	{
	"epoch": 0.27788911155644624,
	"grad_norm": 75.48258438787046,
	"learning_rate": 9.066954722907638e-07,
	"logits/chosen": -1.0887296199798584,
	"logits/rejected": -1.0823543071746826,
	"logps/chosen": -0.6110976934432983,
	"logps/rejected": -0.8805627822875977,
	"loss": 2.1296,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -6.110977649688721,
	"rewards/margins": 2.694650888442993,
	"rewards/rejected": -8.805627822875977,
	"step": 130
	},
	{
	"epoch": 0.28857715430861725,
	"grad_norm": 62.13046213587147,
	"learning_rate": 8.955355173281707e-07,
	"logits/chosen": -1.061156153678894,
	"logits/rejected": -1.0147919654846191,
	"logps/chosen": -0.7112447023391724,
	"logps/rejected": -0.8724945783615112,
	"loss": 2.1133,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -7.1124467849731445,
	"rewards/margins": 1.6124988794326782,
	"rewards/rejected": -8.724946975708008,
	"step": 135
	},
	{
	"epoch": 0.29926519706078825,
	"grad_norm": 79.80676489486827,
	"learning_rate": 8.838223701790055e-07,
	"logits/chosen": -1.1300795078277588,
	"logits/rejected": -1.1087987422943115,
	"logps/chosen": -0.8216513395309448,
	"logps/rejected": -0.9944013357162476,
	"loss": 2.0323,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -8.216513633728027,
	"rewards/margins": 1.7274997234344482,
	"rewards/rejected": -9.944013595581055,
	"step": 140
	},
	{
	"epoch": 0.30995323981295925,
	"grad_norm": 119.11117858285472,
	"learning_rate": 8.71572412738697e-07,
	"logits/chosen": -1.0456678867340088,
	"logits/rejected": -1.0206925868988037,
	"logps/chosen": -0.8874173164367676,
	"logps/rejected": -1.1297991275787354,
	"loss": 2.0077,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -8.874174118041992,
	"rewards/margins": 2.423818588256836,
	"rewards/rejected": -11.297992706298828,
	"step": 145
	},
	{
	"epoch": 0.32064128256513025,
	"grad_norm": 80.60289814144,
	"learning_rate": 8.588027776804058e-07,
	"logits/chosen": -1.0754765272140503,
	"logits/rejected": -1.0576502084732056,
	"logps/chosen": -0.9953246116638184,
	"logps/rejected": -1.2399874925613403,
	"loss": 1.968,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -9.953246116638184,
	"rewards/margins": 2.4466278553009033,
	"rewards/rejected": -12.399874687194824,
	"step": 150
	},
	{
	"epoch": 0.33132932531730125,
	"grad_norm": 79.65950829440058,
	"learning_rate": 8.455313244934324e-07,
	"logits/chosen": -1.080444097518921,
	"logits/rejected": -1.0592705011367798,
	"logps/chosen": -1.0582973957061768,
	"logps/rejected": -1.3756240606307983,
	"loss": 1.9981,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -10.582974433898926,
	"rewards/margins": 3.173267364501953,
	"rewards/rejected": -13.756240844726562,
	"step": 155
	},
	{
	"epoch": 0.3420173680694723,
	"grad_norm": 81.44098785800907,
	"learning_rate": 8.317766145051057e-07,
	"logits/chosen": -1.0870612859725952,
	"logits/rejected": -1.069802165031433,
	"logps/chosen": -1.1801505088806152,
	"logps/rejected": -1.5819157361984253,
	"loss": 1.9469,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -11.801506042480469,
	"rewards/margins": 4.017651557922363,
	"rewards/rejected": -15.819157600402832,
	"step": 160
	},
	{
	"epoch": 0.3527054108216433,
	"grad_norm": 61.9394419875011,
	"learning_rate": 8.175578849210894e-07,
	"logits/chosen": -1.0850841999053955,
	"logits/rejected": -1.061554193496704,
	"logps/chosen": -1.1361093521118164,
	"logps/rejected": -1.5122711658477783,
	"loss": 1.8308,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -11.361093521118164,
	"rewards/margins": 3.761617660522461,
	"rewards/rejected": -15.122709274291992,
	"step": 165
	},
	{
	"epoch": 0.3633934535738143,
	"grad_norm": 86.89706327407258,
	"learning_rate": 8.028950219204099e-07,
	"logits/chosen": -1.0892133712768555,
	"logits/rejected": -1.0675928592681885,
	"logps/chosen": -1.1062101125717163,
	"logps/rejected": -1.4951918125152588,
	"loss": 1.7802,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -11.062100410461426,
	"rewards/margins": 3.8898162841796875,
	"rewards/rejected": -14.951919555664062,
	"step": 170
	},
	{
	"epoch": 0.3740814963259853,
	"grad_norm": 96.87652305461658,
	"learning_rate": 7.878085328428368e-07,
	"logits/chosen": -1.1229137182235718,
	"logits/rejected": -1.0774867534637451,
	"logps/chosen": -1.1681886911392212,
	"logps/rejected": -1.4487732648849487,
	"loss": 1.6772,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -11.681886672973633,
	"rewards/margins": 2.805846691131592,
	"rewards/rejected": -14.487733840942383,
	"step": 175
	},
	{
	"epoch": 0.3847695390781563,
	"grad_norm": 80.44938362402195,
	"learning_rate": 7.723195175075135e-07,
	"logits/chosen": -1.0816049575805664,
	"logits/rejected": -1.0617396831512451,
	"logps/chosen": -1.1198861598968506,
	"logps/rejected": -1.4944720268249512,
	"loss": 1.5945,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -11.198859214782715,
	"rewards/margins": 3.7458598613739014,
	"rewards/rejected": -14.944720268249512,
	"step": 180
	},
	{
	"epoch": 0.3954575818303273,
	"grad_norm": 89.9964846943623,
	"learning_rate": 7.564496387029531e-07,
	"logits/chosen": -1.1142748594284058,
	"logits/rejected": -1.061927080154419,
	"logps/chosen": -1.1488279104232788,
	"logps/rejected": -1.5771600008010864,
	"loss": 1.6746,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -11.488279342651367,
	"rewards/margins": 4.283320426940918,
	"rewards/rejected": -15.771600723266602,
	"step": 185
	},
	{
	"epoch": 0.4061456245824983,
	"grad_norm": 91.4567322928116,
	"learning_rate": 7.402210918896689e-07,
	"logits/chosen": -1.113872766494751,
	"logits/rejected": -1.1223859786987305,
	"logps/chosen": -1.2559322118759155,
	"logps/rejected": -1.7311124801635742,
	"loss": 1.5468,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -12.55932331085205,
	"rewards/margins": 4.751800060272217,
	"rewards/rejected": -17.31112289428711,
	"step": 190
	},
	{
	"epoch": 0.4168336673346693,
	"grad_norm": 71.15679417803156,
	"learning_rate": 7.236565741578162e-07,
	"logits/chosen": -1.0601518154144287,
	"logits/rejected": -1.043198823928833,
	"logps/chosen": -1.2675104141235352,
	"logps/rejected": -1.6440922021865845,
	"loss": 1.6056,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -12.675103187561035,
	"rewards/margins": 3.7658183574676514,
	"rewards/rejected": -16.440921783447266,
	"step": 195
	},
	{
	"epoch": 0.42752171008684037,
	"grad_norm": 88.98069899942548,
	"learning_rate": 7.067792524832603e-07,
	"logits/chosen": -1.0721577405929565,
	"logits/rejected": -1.0621263980865479,
	"logps/chosen": -1.3113422393798828,
	"logps/rejected": -1.726875901222229,
	"loss": 1.5055,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -13.113421440124512,
	"rewards/margins": 4.155338287353516,
	"rewards/rejected": -17.268760681152344,
	"step": 200
	},
	{
	"epoch": 0.43820975283901137,
	"grad_norm": 96.85728294484134,
	"learning_rate": 6.896127313264642e-07,
	"logits/chosen": -1.10856032371521,
	"logits/rejected": -1.059822916984558,
	"logps/chosen": -1.3952258825302124,
	"logps/rejected": -1.8415533304214478,
	"loss": 1.716,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -13.952260971069336,
	"rewards/margins": 4.4632720947265625,
	"rewards/rejected": -18.415531158447266,
	"step": 205
	},
	{
	"epoch": 0.44889779559118237,
	"grad_norm": 98.7584341258845,
	"learning_rate": 6.721810196195174e-07,
	"logits/chosen": -1.134487271308899,
	"logits/rejected": -1.1236417293548584,
	"logps/chosen": -1.4038760662078857,
	"logps/rejected": -1.8213703632354736,
	"loss": 1.5993,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -14.0387601852417,
	"rewards/margins": 4.174942970275879,
	"rewards/rejected": -18.213703155517578,
	"step": 210
	},
	{
	"epoch": 0.45958583834335337,
	"grad_norm": 116.36934325190856,
	"learning_rate": 6.545084971874736e-07,
	"logits/chosen": -1.083676815032959,
	"logits/rejected": -1.0672903060913086,
	"logps/chosen": -1.3948618173599243,
	"logps/rejected": -1.87642502784729,
	"loss": 1.4766,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": -13.948617935180664,
	"rewards/margins": 4.8156328201293945,
	"rewards/rejected": -18.76424789428711,
	"step": 215
	},
	{
	"epoch": 0.47027388109552437,
	"grad_norm": 96.57054428988462,
	"learning_rate": 6.3661988065096e-07,
	"logits/chosen": -1.1386303901672363,
	"logits/rejected": -1.1223524808883667,
	"logps/chosen": -1.477141261100769,
	"logps/rejected": -1.971549391746521,
	"loss": 1.431,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -14.77141284942627,
	"rewards/margins": 4.9440813064575195,
	"rewards/rejected": -19.71549415588379,
	"step": 220
	},
	{
	"epoch": 0.48096192384769537,
	"grad_norm": 72.99627339556893,
	"learning_rate": 6.185401888577487e-07,
	"logits/chosen": -1.1213773488998413,
	"logits/rejected": -1.0908575057983398,
	"logps/chosen": -1.5149943828582764,
	"logps/rejected": -1.969143271446228,
	"loss": 1.4658,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -15.149943351745605,
	"rewards/margins": 4.541489601135254,
	"rewards/rejected": -19.69143295288086,
	"step": 225
	},
	{
	"epoch": 0.4916499665998664,
	"grad_norm": 75.07337643391894,
	"learning_rate": 6.002947078916364e-07,
	"logits/chosen": -1.1983073949813843,
	"logits/rejected": -1.150994896888733,
	"logps/chosen": -1.4561713933944702,
	"logps/rejected": -1.9137779474258423,
	"loss": 1.3907,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -14.561712265014648,
	"rewards/margins": 4.5760674476623535,
	"rewards/rejected": -19.137781143188477,
	"step": 230
	},
	{
	"epoch": 0.5023380093520374,
	"grad_norm": 89.06305062801928,
	"learning_rate": 5.819089557075688e-07,
	"logits/chosen": -1.227797031402588,
	"logits/rejected": -1.2002477645874023,
	"logps/chosen": -1.4925800561904907,
	"logps/rejected": -1.9937610626220703,
	"loss": 1.4023,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -14.925801277160645,
	"rewards/margins": 5.011811256408691,
	"rewards/rejected": -19.937610626220703,
	"step": 235
	},
	{
	"epoch": 0.5130260521042084,
	"grad_norm": 89.0732695289788,
	"learning_rate": 5.634086464424742e-07,
	"logits/chosen": -1.189410924911499,
	"logits/rejected": -1.1908595561981201,
	"logps/chosen": -1.4204081296920776,
	"logps/rejected": -1.9320650100708008,
	"loss": 1.4327,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -14.204083442687988,
	"rewards/margins": 5.116568088531494,
	"rewards/rejected": -19.320650100708008,
	"step": 240
	},
	{
	"epoch": 0.5237140948563794,
	"grad_norm": 99.61038425380444,
	"learning_rate": 5.448196544517167e-07,
	"logits/chosen": -1.2636008262634277,
	"logits/rejected": -1.2102385759353638,
	"logps/chosen": -1.492004156112671,
	"logps/rejected": -2.0921199321746826,
	"loss": 1.3755,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -14.920039176940918,
	"rewards/margins": 6.001158714294434,
	"rewards/rejected": -20.921199798583984,
	"step": 245
	},
	{
	"epoch": 0.5344021376085505,
	"grad_norm": 143.41066987990183,
	"learning_rate": 5.26167978121472e-07,
	"logits/chosen": -1.2205616235733032,
	"logits/rejected": -1.2053756713867188,
	"logps/chosen": -1.5569369792938232,
	"logps/rejected": -2.1403331756591797,
	"loss": 1.3485,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -15.569369316101074,
	"rewards/margins": 5.833963394165039,
	"rewards/rejected": -21.403331756591797,
	"step": 250
	},
	{
	"epoch": 0.5450901803607214,
	"grad_norm": 71.93551703878607,
	"learning_rate": 5.074797035076318e-07,
	"logits/chosen": -1.2752165794372559,
	"logits/rejected": -1.2500503063201904,
	"logps/chosen": -1.6620187759399414,
	"logps/rejected": -2.134455442428589,
	"loss": 1.4857,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -16.620187759399414,
	"rewards/margins": 4.724367141723633,
	"rewards/rejected": -21.344552993774414,
	"step": 255
	},
	{
	"epoch": 0.5557782231128925,
	"grad_norm": 85.67142749873541,
	"learning_rate": 4.887809678520975e-07,
	"logits/chosen": -1.2445859909057617,
	"logits/rejected": -1.216204047203064,
	"logps/chosen": -1.5793449878692627,
	"logps/rejected": -2.078167676925659,
	"loss": 1.4255,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -15.793449401855469,
	"rewards/margins": 4.988225936889648,
	"rewards/rejected": -20.781675338745117,
	"step": 260
	},
	{
	"epoch": 0.5664662658650634,
	"grad_norm": 74.44253878678798,
	"learning_rate": 4.700979230274829e-07,
	"logits/chosen": -1.1956579685211182,
	"logits/rejected": -1.1797969341278076,
	"logps/chosen": -1.6723514795303345,
	"logps/rejected": -2.195023536682129,
	"loss": 1.3414,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": -16.723514556884766,
	"rewards/margins": 5.22672176361084,
	"rewards/rejected": -21.95023536682129,
	"step": 265
	},
	{
	"epoch": 0.5771543086172345,
	"grad_norm": 114.96460787224315,
	"learning_rate": 4.514566989613559e-07,
	"logits/chosen": -1.1912486553192139,
	"logits/rejected": -1.1648938655853271,
	"logps/chosen": -1.463266134262085,
	"logps/rejected": -2.001335620880127,
	"loss": 1.3473,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -14.632661819458008,
	"rewards/margins": 5.3806915283203125,
	"rewards/rejected": -20.013355255126953,
	"step": 270
	},
	{
	"epoch": 0.5878423513694054,
	"grad_norm": 75.32343278326546,
	"learning_rate": 4.328833670911724e-07,
	"logits/chosen": -1.1563775539398193,
	"logits/rejected": -1.1241414546966553,
	"logps/chosen": -1.4626271724700928,
	"logps/rejected": -1.924564003944397,
	"loss": 1.4306,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -14.626272201538086,
	"rewards/margins": 4.619367599487305,
	"rewards/rejected": -19.24563980102539,
	"step": 275
	},
	{
	"epoch": 0.5985303941215765,
	"grad_norm": 112.30854407154642,
	"learning_rate": 4.144039039010124e-07,
	"logits/chosen": -1.2617356777191162,
	"logits/rejected": -1.2384282350540161,
	"logps/chosen": -1.5061413049697876,
	"logps/rejected": -2.0556976795196533,
	"loss": 1.3243,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -15.06141185760498,
	"rewards/margins": 5.495565891265869,
	"rewards/rejected": -20.556978225708008,
	"step": 280
	},
	{
	"epoch": 0.6092184368737475,
	"grad_norm": 102.49061452491978,
	"learning_rate": 3.960441545911204e-07,
	"logits/chosen": -1.2426598072052002,
	"logits/rejected": -1.2112630605697632,
	"logps/chosen": -1.5387237071990967,
	"logps/rejected": -2.120283842086792,
	"loss": 1.0685,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": -15.387234687805176,
	"rewards/margins": 5.815601825714111,
	"rewards/rejected": -21.202838897705078,
	"step": 285
	},
	{
	"epoch": 0.6199064796259185,
	"grad_norm": 86.79253258499234,
	"learning_rate": 3.778297969310529e-07,
	"logits/chosen": -1.2638859748840332,
	"logits/rejected": -1.2220103740692139,
	"logps/chosen": -1.564584493637085,
	"logps/rejected": -2.053191661834717,
	"loss": 1.3472,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -15.645845413208008,
	"rewards/margins": 4.886073589324951,
	"rewards/rejected": -20.531917572021484,
	"step": 290
	},
	{
	"epoch": 0.6305945223780896,
	"grad_norm": 93.44397121318542,
	"learning_rate": 3.5978630534699865e-07,
	"logits/chosen": -1.2045689821243286,
	"logits/rejected": -1.191235899925232,
	"logps/chosen": -1.5795795917510986,
	"logps/rejected": -2.093400239944458,
	"loss": 1.1752,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -15.795794486999512,
	"rewards/margins": 5.138205528259277,
	"rewards/rejected": -20.934001922607422,
	"step": 295
	},
	{
	"epoch": 0.6412825651302605,
	"grad_norm": 83.42376671175532,
	"learning_rate": 3.4193891529348795e-07,
	"logits/chosen": -1.128404974937439,
	"logits/rejected": -1.1020969152450562,
	"logps/chosen": -1.6557916402816772,
	"logps/rejected": -2.1081161499023438,
	"loss": 1.574,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -16.557918548583984,
	"rewards/margins": 4.523244857788086,
	"rewards/rejected": -21.081159591674805,
	"step": 300
	},
	{
	"epoch": 0.6519706078824316,
	"grad_norm": 87.28007107027204,
	"learning_rate": 3.243125879593286e-07,
	"logits/chosen": -1.235114574432373,
	"logits/rejected": -1.19254469871521,
	"logps/chosen": -1.6206077337265015,
	"logps/rejected": -2.079169750213623,
	"loss": 1.3167,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": -16.206077575683594,
	"rewards/margins": 4.585621356964111,
	"rewards/rejected": -20.791696548461914,
	"step": 305
	},
	{
	"epoch": 0.6626586506346025,
	"grad_norm": 105.45685254547827,
	"learning_rate": 3.069319753571269e-07,
	"logits/chosen": -1.267155408859253,
	"logits/rejected": -1.2484853267669678,
	"logps/chosen": -1.6359084844589233,
	"logps/rejected": -2.1494529247283936,
	"loss": 1.3629,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -16.359085083007812,
	"rewards/margins": 5.135441780090332,
	"rewards/rejected": -21.49452781677246,
	"step": 310
	},
	{
	"epoch": 0.6733466933867736,
	"grad_norm": 87.29974596975983,
	"learning_rate": 2.898213858452173e-07,
	"logits/chosen": -1.2641007900238037,
	"logits/rejected": -1.2104285955429077,
	"logps/chosen": -1.6273491382598877,
	"logps/rejected": -2.1474812030792236,
	"loss": 1.3491,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -16.273488998413086,
	"rewards/margins": 5.201323509216309,
	"rewards/rejected": -21.47481346130371,
	"step": 315
	},
	{
	"epoch": 0.6840347361389446,
	"grad_norm": 93.70048699997521,
	"learning_rate": 2.730047501302266e-07,
	"logits/chosen": -1.247004747390747,
	"logits/rejected": -1.2437224388122559,
	"logps/chosen": -1.6495912075042725,
	"logps/rejected": -2.273390293121338,
	"loss": 1.2651,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": -16.495912551879883,
	"rewards/margins": 6.237987518310547,
	"rewards/rejected": -22.73390007019043,
	"step": 320
	},
	{
	"epoch": 0.6947227788911156,
	"grad_norm": 76.81018981722117,
	"learning_rate": 2.5650558779781635e-07,
	"logits/chosen": -1.26289701461792,
	"logits/rejected": -1.2167103290557861,
	"logps/chosen": -1.7046712636947632,
	"logps/rejected": -2.372957944869995,
	"loss": 1.3105,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -17.046714782714844,
	"rewards/margins": 6.682864189147949,
	"rewards/rejected": -23.72957992553711,
	"step": 325
	},
	{
	"epoch": 0.7054108216432866,
	"grad_norm": 73.64401812634293,
	"learning_rate": 2.403469744184154e-07,
	"logits/chosen": -1.178143858909607,
	"logits/rejected": -1.1377698183059692,
	"logps/chosen": -1.6760982275009155,
	"logps/rejected": -2.156362533569336,
	"loss": 1.3515,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -16.760982513427734,
	"rewards/margins": 4.802641868591309,
	"rewards/rejected": -21.56362533569336,
	"step": 330
	},
	{
	"epoch": 0.7160988643954576,
	"grad_norm": 100.69110505698991,
	"learning_rate": 2.2455150927394878e-07,
	"logits/chosen": -1.2217228412628174,
	"logits/rejected": -1.20427405834198,
	"logps/chosen": -1.6592464447021484,
	"logps/rejected": -2.2141623497009277,
	"loss": 1.1861,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -16.592464447021484,
	"rewards/margins": 5.549159049987793,
	"rewards/rejected": -22.141624450683594,
	"step": 335
	},
	{
	"epoch": 0.7267869071476286,
	"grad_norm": 96.51234191429023,
	"learning_rate": 2.0914128375069722e-07,
	"logits/chosen": -1.2305556535720825,
	"logits/rejected": -1.1986171007156372,
	"logps/chosen": -1.5974411964416504,
	"logps/rejected": -2.150116443634033,
	"loss": 1.3127,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -15.974411010742188,
	"rewards/margins": 5.526752948760986,
	"rewards/rejected": -21.501163482666016,
	"step": 340
	},
	{
	"epoch": 0.7374749498997996,
	"grad_norm": 82.01592774884807,
	"learning_rate": 1.9413785044249676e-07,
	"logits/chosen": -1.2591183185577393,
	"logits/rejected": -1.2364073991775513,
	"logps/chosen": -1.667109727859497,
	"logps/rejected": -2.311634063720703,
	"loss": 1.3624,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -16.671098709106445,
	"rewards/margins": 6.445242404937744,
	"rewards/rejected": -23.1163387298584,
	"step": 345
	},
	{
	"epoch": 0.7481629926519706,
	"grad_norm": 122.79704197237824,
	"learning_rate": 1.7956219300748792e-07,
	"logits/chosen": -1.2474735975265503,
	"logits/rejected": -1.2506452798843384,
	"logps/chosen": -1.5353481769561768,
	"logps/rejected": -2.0822863578796387,
	"loss": 1.2838,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -15.353483200073242,
	"rewards/margins": 5.4693803787231445,
	"rewards/rejected": -20.822864532470703,
	"step": 350
	},
	{
	"epoch": 0.7588510354041417,
	"grad_norm": 96.25560337558127,
	"learning_rate": 1.6543469682057104e-07,
	"logits/chosen": -1.1812379360198975,
	"logits/rejected": -1.1956241130828857,
	"logps/chosen": -1.5455963611602783,
	"logps/rejected": -2.1094608306884766,
	"loss": 1.1903,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -15.455963134765625,
	"rewards/margins": 5.638647079467773,
	"rewards/rejected": -21.0946102142334,
	"step": 355
	},
	{
	"epoch": 0.7695390781563126,
	"grad_norm": 79.54472628433167,
	"learning_rate": 1.5177512046261666e-07,
	"logits/chosen": -1.2227225303649902,
	"logits/rejected": -1.223512053489685,
	"logps/chosen": -1.562652349472046,
	"logps/rejected": -2.2054429054260254,
	"loss": 1.3011,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -15.626523971557617,
	"rewards/margins": 6.4279046058654785,
	"rewards/rejected": -22.054428100585938,
	"step": 360
	},
	{
	"epoch": 0.7802271209084837,
	"grad_norm": 67.31957818166626,
	"learning_rate": 1.3860256808630427e-07,
	"logits/chosen": -1.2667648792266846,
	"logits/rejected": -1.204973816871643,
	"logps/chosen": -1.611985206604004,
	"logps/rejected": -2.2405993938446045,
	"loss": 1.2638,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -16.119850158691406,
	"rewards/margins": 6.286141872406006,
	"rewards/rejected": -22.405994415283203,
	"step": 365
	},
	{
	"epoch": 0.7909151636606546,
	"grad_norm": 96.4652631691847,
	"learning_rate": 1.2593546269723647e-07,
	"logits/chosen": -1.1908237934112549,
	"logits/rejected": -1.1797075271606445,
	"logps/chosen": -1.5888497829437256,
	"logps/rejected": -2.0819642543792725,
	"loss": 1.2368,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -15.888498306274414,
	"rewards/margins": 4.931147575378418,
	"rewards/rejected": -20.819644927978516,
	"step": 370
	},
	{
	"epoch": 0.8016032064128257,
	"grad_norm": 77.32657538767864,
	"learning_rate": 1.1379152038770029e-07,
	"logits/chosen": -1.22549307346344,
	"logits/rejected": -1.2306774854660034,
	"logps/chosen": -1.7054897546768188,
	"logps/rejected": -2.2909984588623047,
	"loss": 1.2394,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -17.05489730834961,
	"rewards/margins": 5.855085372924805,
	"rewards/rejected": -22.909982681274414,
	"step": 375
	},
	{
	"epoch": 0.8122912491649966,
	"grad_norm": 122.77103138361475,
	"learning_rate": 1.0218772555910954e-07,
	"logits/chosen": -1.2489427328109741,
	"logits/rejected": -1.2302041053771973,
	"logps/chosen": -1.59738028049469,
	"logps/rejected": -2.1246509552001953,
	"loss": 1.3954,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -15.973803520202637,
	"rewards/margins": 5.272706031799316,
	"rewards/rejected": -21.246509552001953,
	"step": 380
	},
	{
	"epoch": 0.8229792919171677,
	"grad_norm": 73.11130573539627,
	"learning_rate": 9.114030716778432e-08,
	"logits/chosen": -1.231930136680603,
	"logits/rejected": -1.2102787494659424,
	"logps/chosen": -1.6145036220550537,
	"logps/rejected": -2.3103325366973877,
	"loss": 1.0955,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -16.145038604736328,
	"rewards/margins": 6.958285331726074,
	"rewards/rejected": -23.103322982788086,
	"step": 385
	},
	{
	"epoch": 0.8336673346693386,
	"grad_norm": 80.68579596437256,
	"learning_rate": 8.066471602728803e-08,
	"logits/chosen": -1.2316021919250488,
	"logits/rejected": -1.2188332080841064,
	"logps/chosen": -1.6731784343719482,
	"logps/rejected": -2.2686033248901367,
	"loss": 1.2377,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -16.73178482055664,
	"rewards/margins": 5.95424747467041,
	"rewards/rejected": -22.686031341552734,
	"step": 390
	},
	{
	"epoch": 0.8443553774215097,
	"grad_norm": 77.88673283635482,
	"learning_rate": 7.077560319906694e-08,
	"logits/chosen": -1.2400703430175781,
	"logits/rejected": -1.2209936380386353,
	"logps/chosen": -1.5812984704971313,
	"logps/rejected": -2.1461308002471924,
	"loss": 1.2574,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": -15.812983512878418,
	"rewards/margins": 5.648324012756348,
	"rewards/rejected": -21.461307525634766,
	"step": 395
	},
	{
	"epoch": 0.8550434201736807,
	"grad_norm": 64.27634143705052,
	"learning_rate": 6.148679950161672e-08,
	"logits/chosen": -1.2457908391952515,
	"logits/rejected": -1.2307510375976562,
	"logps/chosen": -1.6303634643554688,
	"logps/rejected": -2.144191265106201,
	"loss": 1.2352,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -16.303632736206055,
	"rewards/margins": 5.138282775878906,
	"rewards/rejected": -21.441913604736328,
	"step": 400
	},
	{
	"epoch": 0.8550434201736807,
	"eval_logits/chosen": -1.4050133228302002,
	"eval_logits/rejected": -1.4148539304733276,
	"eval_logps/chosen": -1.6315457820892334,
	"eval_logps/rejected": -2.184220314025879,
	"eval_loss": 1.3035991191864014,
	"eval_rewards/accuracies": 0.8313007950782776,
	"eval_rewards/chosen": -16.315458297729492,
	"eval_rewards/margins": 5.526745319366455,
	"eval_rewards/rejected": -21.842201232910156,
	"eval_runtime": 114.1272,
	"eval_samples_per_second": 17.183,
	"eval_steps_per_second": 1.078,
	"step": 400
	},
	{
	"epoch": 0.8657314629258517,
	"grad_norm": 93.3112085508996,
	"learning_rate": 5.2811296166831666e-08,
	"logits/chosen": -1.2086267471313477,
	"logits/rejected": -1.2275283336639404,
	"logps/chosen": -1.705394983291626,
	"logps/rejected": -2.2604918479919434,
	"loss": 1.2335,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -17.053951263427734,
	"rewards/margins": 5.550968647003174,
	"rewards/rejected": -22.604917526245117,
	"step": 405
	},
	{
	"epoch": 0.8764195056780227,
	"grad_norm": 147.49347048623574,
	"learning_rate": 4.4761226670592066e-08,
	"logits/chosen": -1.224875569343567,
	"logits/rejected": -1.2125729322433472,
	"logps/chosen": -1.6484178304672241,
	"logps/rejected": -2.173166036605835,
	"loss": 1.3786,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -16.48417854309082,
	"rewards/margins": 5.247479438781738,
	"rewards/rejected": -21.731660842895508,
	"step": 410
	},
	{
	"epoch": 0.8871075484301937,
	"grad_norm": 72.56853127664434,
	"learning_rate": 3.734784976300165e-08,
	"logits/chosen": -1.216326355934143,
	"logits/rejected": -1.1681609153747559,
	"logps/chosen": -1.584081768989563,
	"logps/rejected": -2.2398409843444824,
	"loss": 1.3224,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -15.84081745147705,
	"rewards/margins": 6.557589530944824,
	"rewards/rejected": -22.398406982421875,
	"step": 415
	},
	{
	"epoch": 0.8977955911823647,
	"grad_norm": 96.60767749787689,
	"learning_rate": 3.058153372200695e-08,
	"logits/chosen": -1.252618432044983,
	"logits/rejected": -1.206176996231079,
	"logps/chosen": -1.533342719078064,
	"logps/rejected": -2.1350560188293457,
	"loss": 1.2256,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -15.333427429199219,
	"rewards/margins": 6.0171332359313965,
	"rewards/rejected": -21.350561141967773,
	"step": 420
	},
	{
	"epoch": 0.9084836339345357,
	"grad_norm": 102.43117197696006,
	"learning_rate": 2.4471741852423233e-08,
	"logits/chosen": -1.2422844171524048,
	"logits/rejected": -1.2342640161514282,
	"logps/chosen": -1.7160053253173828,
	"logps/rejected": -2.2498655319213867,
	"loss": 1.4539,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -17.160053253173828,
	"rewards/margins": 5.338602542877197,
	"rewards/rejected": -22.498653411865234,
	"step": 425
	},
	{
	"epoch": 0.9191716766867067,
	"grad_norm": 95.6241453357728,
	"learning_rate": 1.9027019250647036e-08,
	"logits/chosen": -1.232668161392212,
	"logits/rejected": -1.2184712886810303,
	"logps/chosen": -1.7022215127944946,
	"logps/rejected": -2.2985284328460693,
	"loss": 1.267,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -17.022212982177734,
	"rewards/margins": 5.963072299957275,
	"rewards/rejected": -22.985288619995117,
	"step": 430
	},
	{
	"epoch": 0.9298597194388778,
	"grad_norm": 76.99966381399814,
	"learning_rate": 1.4254980853566246e-08,
	"logits/chosen": -1.182472825050354,
	"logits/rejected": -1.1473052501678467,
	"logps/chosen": -1.5595757961273193,
	"logps/rejected": -2.154953956604004,
	"loss": 1.2015,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -15.595758438110352,
	"rewards/margins": 5.953780174255371,
	"rewards/rejected": -21.54953956604004,
	"step": 435
	},
	{
	"epoch": 0.9405477621910487,
	"grad_norm": 84.23154902337001,
	"learning_rate": 1.016230078838226e-08,
	"logits/chosen": -1.2160289287567139,
	"logits/rejected": -1.1602892875671387,
	"logps/chosen": -1.6690679788589478,
	"logps/rejected": -2.205056667327881,
	"loss": 1.245,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -16.690677642822266,
	"rewards/margins": 5.359889984130859,
	"rewards/rejected": -22.050569534301758,
	"step": 440
	},
	{
	"epoch": 0.9512358049432198,
	"grad_norm": 75.27496517042923,
	"learning_rate": 6.754703038239329e-09,
	"logits/chosen": -1.1662180423736572,
	"logits/rejected": -1.1511404514312744,
	"logps/chosen": -1.6556246280670166,
	"logps/rejected": -2.3011534214019775,
	"loss": 1.1055,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -16.556243896484375,
	"rewards/margins": 6.4552903175354,
	"rewards/rejected": -23.011533737182617,
	"step": 445
	},
	{
	"epoch": 0.9619238476953907,
	"grad_norm": 92.06659067628235,
	"learning_rate": 4.036953436716895e-09,
	"logits/chosen": -1.278028130531311,
	"logits/rejected": -1.2591049671173096,
	"logps/chosen": -1.6093896627426147,
	"logps/rejected": -2.1693015098571777,
	"loss": 1.3206,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -16.093896865844727,
	"rewards/margins": 5.599120140075684,
	"rewards/rejected": -21.693017959594727,
	"step": 450
	},
	{
	"epoch": 0.9726118904475618,
	"grad_norm": 100.7331017689662,
	"learning_rate": 2.0128530023804656e-09,
	"logits/chosen": -1.2293764352798462,
	"logits/rejected": -1.1971036195755005,
	"logps/chosen": -1.6129881143569946,
	"logps/rejected": -2.264960765838623,
	"loss": 1.0669,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": -16.129878997802734,
	"rewards/margins": 6.5197248458862305,
	"rewards/rejected": -22.649606704711914,
	"step": 455
	},
	{
	"epoch": 0.9832999331997327,
	"grad_norm": 88.7868280064186,
	"learning_rate": 6.852326227130833e-10,
	"logits/chosen": -1.241369366645813,
	"logits/rejected": -1.2309256792068481,
	"logps/chosen": -1.6784422397613525,
	"logps/rejected": -2.295506000518799,
	"loss": 1.1912,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -16.784420013427734,
	"rewards/margins": 6.170637607574463,
	"rewards/rejected": -22.95505714416504,
	"step": 460
	},
	{
	"epoch": 0.9939879759519038,
	"grad_norm": 89.2084840240269,
	"learning_rate": 5.594909486328348e-11,
	"logits/chosen": -1.2126357555389404,
	"logits/rejected": -1.2189154624938965,
	"logps/chosen": -1.7046855688095093,
	"logps/rejected": -2.3294055461883545,
	"loss": 1.3123,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -17.046857833862305,
	"rewards/margins": 6.247200965881348,
	"rewards/rejected": -23.294055938720703,
	"step": 465
	},
	{
	"epoch": 0.9982631930527722,
	"step": 467,
	"total_flos": 0.0,
	"train_loss": 1.7982526555561662,
	"train_runtime": 17001.7268,
	"train_samples_per_second": 3.522,
	"train_steps_per_second": 0.027
	}
	],
	"logging_steps": 5,
	"max_steps": 467,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}