zephyr-7b-dpo-full / trainer_state.json

Model save

04ffc18 verified 4 months ago

No virus

22.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 100,
	"global_step": 391,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 422.289956912934,
	"learning_rate": 1.25e-09,
	"logits/chosen": -4.623842239379883,
	"logits/rejected": -4.85917854309082,
	"logps/chosen": -239.31422424316406,
	"logps/rejected": -207.56365966796875,
	"loss": 0.6959,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.03,
	"grad_norm": 397.335507450448,
	"learning_rate": 1.25e-08,
	"logits/chosen": -4.334493160247803,
	"logits/rejected": -4.643917560577393,
	"logps/chosen": -265.1265563964844,
	"logps/rejected": -215.76223754882812,
	"loss": 0.6932,
	"rewards/accuracies": 0.5,
	"rewards/chosen": -0.0019649432506412268,
	"rewards/margins": 0.0034448718652129173,
	"rewards/rejected": -0.005409814417362213,
	"step": 10
	},
	{
	"epoch": 0.05,
	"grad_norm": 411.8624893441942,
	"learning_rate": 2.5e-08,
	"logits/chosen": -4.506826400756836,
	"logits/rejected": -4.740732192993164,
	"logps/chosen": -267.86932373046875,
	"logps/rejected": -216.64578247070312,
	"loss": 0.6921,
	"rewards/accuracies": 0.518750011920929,
	"rewards/chosen": 0.007061410695314407,
	"rewards/margins": 0.010701502673327923,
	"rewards/rejected": -0.003640091512352228,
	"step": 20
	},
	{
	"epoch": 0.08,
	"grad_norm": 426.4548766919431,
	"learning_rate": 3.75e-08,
	"logits/chosen": -4.585576057434082,
	"logits/rejected": -4.762608528137207,
	"logps/chosen": -258.25,
	"logps/rejected": -214.71231079101562,
	"loss": 0.6756,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.028281379491090775,
	"rewards/margins": 0.04623327776789665,
	"rewards/rejected": -0.017951902002096176,
	"step": 30
	},
	{
	"epoch": 0.1,
	"grad_norm": 368.66232685986097,
	"learning_rate": 5e-08,
	"logits/chosen": -4.62213659286499,
	"logits/rejected": -4.706842422485352,
	"logps/chosen": -252.6122283935547,
	"logps/rejected": -220.41427612304688,
	"loss": 0.6177,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": 0.0986957773566246,
	"rewards/margins": 0.1730131059885025,
	"rewards/rejected": -0.07431730628013611,
	"step": 40
	},
	{
	"epoch": 0.13,
	"grad_norm": 294.81806277707193,
	"learning_rate": 4.989992961303737e-08,
	"logits/chosen": -4.516692161560059,
	"logits/rejected": -4.714283466339111,
	"logps/chosen": -269.63470458984375,
	"logps/rejected": -227.5962371826172,
	"loss": 0.5368,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": 0.2334650307893753,
	"rewards/margins": 0.4059367775917053,
	"rewards/rejected": -0.17247170209884644,
	"step": 50
	},
	{
	"epoch": 0.15,
	"grad_norm": 263.2732793061953,
	"learning_rate": 4.960051957873725e-08,
	"logits/chosen": -4.610293388366699,
	"logits/rejected": -4.734058856964111,
	"logps/chosen": -237.3783721923828,
	"logps/rejected": -218.6456298828125,
	"loss": 0.4381,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": 0.3744103014469147,
	"rewards/margins": 0.7368327975273132,
	"rewards/rejected": -0.3624224364757538,
	"step": 60
	},
	{
	"epoch": 0.18,
	"grad_norm": 243.25478495437125,
	"learning_rate": 4.910416686333906e-08,
	"logits/chosen": -4.496267795562744,
	"logits/rejected": -4.724743843078613,
	"logps/chosen": -248.19540405273438,
	"logps/rejected": -222.69140625,
	"loss": 0.4014,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": 0.49465441703796387,
	"rewards/margins": 0.9875491261482239,
	"rewards/rejected": -0.49289458990097046,
	"step": 70
	},
	{
	"epoch": 0.2,
	"grad_norm": 203.40516001004536,
	"learning_rate": 4.841484508350678e-08,
	"logits/chosen": -4.488529682159424,
	"logits/rejected": -4.711686611175537,
	"logps/chosen": -254.6974639892578,
	"logps/rejected": -235.7099151611328,
	"loss": 0.3429,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": 0.652252197265625,
	"rewards/margins": 1.1913691759109497,
	"rewards/rejected": -0.5391170978546143,
	"step": 80
	},
	{
	"epoch": 0.23,
	"grad_norm": 237.79736326938396,
	"learning_rate": 4.7538072695020406e-08,
	"logits/chosen": -4.58192777633667,
	"logits/rejected": -4.797459602355957,
	"logps/chosen": -243.06143188476562,
	"logps/rejected": -210.63308715820312,
	"loss": 0.3085,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": 0.8151354789733887,
	"rewards/margins": 1.595442533493042,
	"rewards/rejected": -0.7803069353103638,
	"step": 90
	},
	{
	"epoch": 0.26,
	"grad_norm": 222.07031689896021,
	"learning_rate": 4.6480868814055416e-08,
	"logits/chosen": -4.459914207458496,
	"logits/rejected": -4.747165679931641,
	"logps/chosen": -247.2704620361328,
	"logps/rejected": -236.6487274169922,
	"loss": 0.2984,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": 0.9447771906852722,
	"rewards/margins": 1.8987438678741455,
	"rewards/rejected": -0.953966498374939,
	"step": 100
	},
	{
	"epoch": 0.26,
	"eval_logits/chosen": -4.55070686340332,
	"eval_logits/rejected": -4.762002944946289,
	"eval_logps/chosen": -390.7516174316406,
	"eval_logps/rejected": -515.337158203125,
	"eval_loss": 0.9402573704719543,
	"eval_rewards/accuracies": 0.40625,
	"eval_rewards/chosen": -0.027714576572179794,
	"eval_rewards/margins": -0.3327641487121582,
	"eval_rewards/rejected": 0.3050495684146881,
	"eval_runtime": 97.8238,
	"eval_samples_per_second": 20.445,
	"eval_steps_per_second": 0.327,
	"step": 100
	},
	{
	"epoch": 0.28,
	"grad_norm": 179.38114597248955,
	"learning_rate": 4.525169702472916e-08,
	"logits/chosen": -4.51773738861084,
	"logits/rejected": -4.777291297912598,
	"logps/chosen": -238.6410369873047,
	"logps/rejected": -227.3874053955078,
	"loss": 0.2711,
	"rewards/accuracies": 0.9437500238418579,
	"rewards/chosen": 1.0544707775115967,
	"rewards/margins": 2.1246237754821777,
	"rewards/rejected": -1.070152997970581,
	"step": 110
	},
	{
	"epoch": 0.31,
	"grad_norm": 163.17108435846185,
	"learning_rate": 4.386039762276975e-08,
	"logits/chosen": -4.462746620178223,
	"logits/rejected": -4.7056145668029785,
	"logps/chosen": -262.86920166015625,
	"logps/rejected": -238.99801635742188,
	"loss": 0.267,
	"rewards/accuracies": 0.96875,
	"rewards/chosen": 1.3120397329330444,
	"rewards/margins": 2.3509771823883057,
	"rewards/rejected": -1.0389372110366821,
	"step": 120
	},
	{
	"epoch": 0.33,
	"grad_norm": 229.70994586547334,
	"learning_rate": 4.231810883773999e-08,
	"logits/chosen": -4.532160758972168,
	"logits/rejected": -4.803128719329834,
	"logps/chosen": -246.3385009765625,
	"logps/rejected": -227.83792114257812,
	"loss": 0.2577,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": 1.2105365991592407,
	"rewards/margins": 2.461458921432495,
	"rewards/rejected": -1.2509223222732544,
	"step": 130
	},
	{
	"epoch": 0.36,
	"grad_norm": 152.87001146329087,
	"learning_rate": 4.063717766448194e-08,
	"logits/chosen": -4.559675216674805,
	"logits/rejected": -4.842075824737549,
	"logps/chosen": -272.3346252441406,
	"logps/rejected": -246.54464721679688,
	"loss": 0.2453,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 1.1860424280166626,
	"rewards/margins": 2.6231608390808105,
	"rewards/rejected": -1.4371181726455688,
	"step": 140
	},
	{
	"epoch": 0.38,
	"grad_norm": 176.7311824941399,
	"learning_rate": 3.8831061017632845e-08,
	"logits/chosen": -4.557957172393799,
	"logits/rejected": -4.812293529510498,
	"logps/chosen": -239.32144165039062,
	"logps/rejected": -232.82479858398438,
	"loss": 0.2425,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": 1.3096827268600464,
	"rewards/margins": 2.680234432220459,
	"rewards/rejected": -1.3705517053604126,
	"step": 150
	},
	{
	"epoch": 0.41,
	"grad_norm": 179.5862213559593,
	"learning_rate": 3.691421800053269e-08,
	"logits/chosen": -4.614952564239502,
	"logits/rejected": -4.799678802490234,
	"logps/chosen": -238.4506378173828,
	"logps/rejected": -229.4785614013672,
	"loss": 0.2216,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": 1.300586462020874,
	"rewards/margins": 2.687537908554077,
	"rewards/rejected": -1.3869514465332031,
	"step": 160
	},
	{
	"epoch": 0.43,
	"grad_norm": 160.70849517962517,
	"learning_rate": 3.490199415097892e-08,
	"logits/chosen": -4.499081611633301,
	"logits/rejected": -4.779529571533203,
	"logps/chosen": -244.9915771484375,
	"logps/rejected": -235.46743774414062,
	"loss": 0.2108,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": 1.6082652807235718,
	"rewards/margins": 3.174710988998413,
	"rewards/rejected": -1.5664453506469727,
	"step": 170
	},
	{
	"epoch": 0.46,
	"grad_norm": 149.11333079529007,
	"learning_rate": 3.2810498590513937e-08,
	"logits/chosen": -4.59390926361084,
	"logits/rejected": -4.832152366638184,
	"logps/chosen": -222.95986938476562,
	"logps/rejected": -211.53585815429688,
	"loss": 0.2274,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": 1.3903782367706299,
	"rewards/margins": 2.9419426918029785,
	"rewards/rejected": -1.5515644550323486,
	"step": 180
	},
	{
	"epoch": 0.49,
	"grad_norm": 171.77003361632143,
	"learning_rate": 3.065647506074306e-08,
	"logits/chosen": -4.56182861328125,
	"logits/rejected": -4.7075724601745605,
	"logps/chosen": -245.95556640625,
	"logps/rejected": -247.3394012451172,
	"loss": 0.2299,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": 1.4937294721603394,
	"rewards/margins": 2.711061477661133,
	"rewards/rejected": -1.2173320055007935,
	"step": 190
	},
	{
	"epoch": 0.51,
	"grad_norm": 152.3542212939215,
	"learning_rate": 2.8457167879118325e-08,
	"logits/chosen": -4.556639194488525,
	"logits/rejected": -4.735670566558838,
	"logps/chosen": -237.8849639892578,
	"logps/rejected": -229.5240020751953,
	"loss": 0.2338,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 1.4254279136657715,
	"rewards/margins": 2.843172073364258,
	"rewards/rejected": -1.4177442789077759,
	"step": 200
	},
	{
	"epoch": 0.51,
	"eval_logits/chosen": -4.538640975952148,
	"eval_logits/rejected": -4.758352279663086,
	"eval_logps/chosen": -391.07916259765625,
	"eval_logps/rejected": -514.2457885742188,
	"eval_loss": 1.0996507406234741,
	"eval_rewards/accuracies": 0.38671875,
	"eval_rewards/chosen": -0.06046929210424423,
	"eval_rewards/margins": -0.4746614694595337,
	"eval_rewards/rejected": 0.41419219970703125,
	"eval_runtime": 98.0841,
	"eval_samples_per_second": 20.391,
	"eval_steps_per_second": 0.326,
	"step": 200
	},
	{
	"epoch": 0.54,
	"grad_norm": 139.65082338502864,
	"learning_rate": 2.6230183887296952e-08,
	"logits/chosen": -4.619709014892578,
	"logits/rejected": -4.859663963317871,
	"logps/chosen": -249.32113647460938,
	"logps/rejected": -246.33468627929688,
	"loss": 0.1967,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": 1.6563961505889893,
	"rewards/margins": 3.425267457962036,
	"rewards/rejected": -1.768871545791626,
	"step": 210
	},
	{
	"epoch": 0.56,
	"grad_norm": 147.42119588032455,
	"learning_rate": 2.3993351497264626e-08,
	"logits/chosen": -4.466108798980713,
	"logits/rejected": -4.793113708496094,
	"logps/chosen": -247.28756713867188,
	"logps/rejected": -244.1797637939453,
	"loss": 0.2159,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": 1.5523773431777954,
	"rewards/margins": 3.5030410289764404,
	"rewards/rejected": -1.9506635665893555,
	"step": 220
	},
	{
	"epoch": 0.59,
	"grad_norm": 158.88183877851495,
	"learning_rate": 2.1764577963648613e-08,
	"logits/chosen": -4.541924476623535,
	"logits/rejected": -4.858447074890137,
	"logps/chosen": -245.6726531982422,
	"logps/rejected": -243.28677368164062,
	"loss": 0.2197,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": 1.5296446084976196,
	"rewards/margins": 3.487210750579834,
	"rewards/rejected": -1.957566499710083,
	"step": 230
	},
	{
	"epoch": 0.61,
	"grad_norm": 157.203527489415,
	"learning_rate": 1.9561706024845818e-08,
	"logits/chosen": -4.5143561363220215,
	"logits/rejected": -4.772491455078125,
	"logps/chosen": -256.7393798828125,
	"logps/rejected": -240.91226196289062,
	"loss": 0.2123,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": 1.6083800792694092,
	"rewards/margins": 3.60624623298645,
	"rewards/rejected": -1.9978656768798828,
	"step": 240
	},
	{
	"epoch": 0.64,
	"grad_norm": 159.9556615524972,
	"learning_rate": 1.740237106064383e-08,
	"logits/chosen": -4.641883850097656,
	"logits/rejected": -4.893360614776611,
	"logps/chosen": -234.55264282226562,
	"logps/rejected": -224.25631713867188,
	"loss": 0.2024,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": 1.414884090423584,
	"rewards/margins": 3.079598903656006,
	"rewards/rejected": -1.6647151708602905,
	"step": 250
	},
	{
	"epoch": 0.66,
	"grad_norm": 198.60636587673295,
	"learning_rate": 1.530385990987863e-08,
	"logits/chosen": -4.517378330230713,
	"logits/rejected": -4.799233913421631,
	"logps/chosen": -238.4044189453125,
	"logps/rejected": -242.4611358642578,
	"loss": 0.2025,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 1.5644124746322632,
	"rewards/margins": 3.8356785774230957,
	"rewards/rejected": -2.271266460418701,
	"step": 260
	},
	{
	"epoch": 0.69,
	"grad_norm": 186.10967020286805,
	"learning_rate": 1.3282972478382409e-08,
	"logits/chosen": -4.603947639465332,
	"logits/rejected": -4.826247215270996,
	"logps/chosen": -245.811279296875,
	"logps/rejected": -236.3955841064453,
	"loss": 0.2127,
	"rewards/accuracies": 0.9437500238418579,
	"rewards/chosen": 1.5221991539001465,
	"rewards/margins": 3.6592516899108887,
	"rewards/rejected": -2.137052536010742,
	"step": 270
	},
	{
	"epoch": 0.72,
	"grad_norm": 144.59147008918274,
	"learning_rate": 1.1355887245137383e-08,
	"logits/chosen": -4.557550430297852,
	"logits/rejected": -4.780216217041016,
	"logps/chosen": -248.1402587890625,
	"logps/rejected": -262.3576354980469,
	"loss": 0.1884,
	"rewards/accuracies": 0.96875,
	"rewards/chosen": 1.636661171913147,
	"rewards/margins": 3.578484296798706,
	"rewards/rejected": -1.9418232440948486,
	"step": 280
	},
	{
	"epoch": 0.74,
	"grad_norm": 331.8489693457681,
	"learning_rate": 9.538031743343628e-09,
	"logits/chosen": -4.426544666290283,
	"logits/rejected": -4.761611461639404,
	"logps/chosen": -255.4153289794922,
	"logps/rejected": -234.84487915039062,
	"loss": 0.1966,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": 1.7193052768707275,
	"rewards/margins": 3.6408512592315674,
	"rewards/rejected": -1.9215457439422607,
	"step": 290
	},
	{
	"epoch": 0.77,
	"grad_norm": 177.15049850318,
	"learning_rate": 7.843959053281662e-09,
	"logits/chosen": -4.541173934936523,
	"logits/rejected": -4.741909503936768,
	"logps/chosen": -236.41854858398438,
	"logps/rejected": -236.483642578125,
	"loss": 0.2158,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": 1.6989631652832031,
	"rewards/margins": 3.7507786750793457,
	"rewards/rejected": -2.0518155097961426,
	"step": 300
	},
	{
	"epoch": 0.77,
	"eval_logits/chosen": -4.539734840393066,
	"eval_logits/rejected": -4.759631633758545,
	"eval_logps/chosen": -392.2895812988281,
	"eval_logps/rejected": -515.406494140625,
	"eval_loss": 1.1359957456588745,
	"eval_rewards/accuracies": 0.41015625,
	"eval_rewards/chosen": -0.18151262402534485,
	"eval_rewards/margins": -0.47963014245033264,
	"eval_rewards/rejected": 0.2981175184249878,
	"eval_runtime": 97.905,
	"eval_samples_per_second": 20.428,
	"eval_steps_per_second": 0.327,
	"step": 300
	},
	{
	"epoch": 0.79,
	"grad_norm": 159.8961908197972,
	"learning_rate": 6.28723129572247e-09,
	"logits/chosen": -4.461672782897949,
	"logits/rejected": -4.776505470275879,
	"logps/chosen": -244.0063934326172,
	"logps/rejected": -244.4510955810547,
	"loss": 0.2028,
	"rewards/accuracies": 0.9437500238418579,
	"rewards/chosen": 1.7133222818374634,
	"rewards/margins": 3.9386374950408936,
	"rewards/rejected": -2.2253153324127197,
	"step": 310
	},
	{
	"epoch": 0.82,
	"grad_norm": 185.55678167306448,
	"learning_rate": 4.880311058593617e-09,
	"logits/chosen": -4.521292209625244,
	"logits/rejected": -4.848372936248779,
	"logps/chosen": -230.04397583007812,
	"logps/rejected": -226.9331817626953,
	"loss": 0.2095,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 1.5120347738265991,
	"rewards/margins": 3.560204267501831,
	"rewards/rejected": -2.0481698513031006,
	"step": 320
	},
	{
	"epoch": 0.84,
	"grad_norm": 155.26912676521727,
	"learning_rate": 3.6344616260994942e-09,
	"logits/chosen": -4.473151683807373,
	"logits/rejected": -4.766911029815674,
	"logps/chosen": -251.7646484375,
	"logps/rejected": -254.7379913330078,
	"loss": 0.1928,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": 1.638421654701233,
	"rewards/margins": 3.8422539234161377,
	"rewards/rejected": -2.2038321495056152,
	"step": 330
	},
	{
	"epoch": 0.87,
	"grad_norm": 151.70242269299357,
	"learning_rate": 2.5596568090246547e-09,
	"logits/chosen": -4.4894232749938965,
	"logits/rejected": -4.816695213317871,
	"logps/chosen": -255.334716796875,
	"logps/rejected": -228.4678192138672,
	"loss": 0.1963,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": 1.8811309337615967,
	"rewards/margins": 4.049709320068359,
	"rewards/rejected": -2.1685783863067627,
	"step": 340
	},
	{
	"epoch": 0.9,
	"grad_norm": 150.47860807724385,
	"learning_rate": 1.6645010980854079e-09,
	"logits/chosen": -4.505433559417725,
	"logits/rejected": -4.675290584564209,
	"logps/chosen": -240.54714965820312,
	"logps/rejected": -246.03665161132812,
	"loss": 0.2168,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": 1.4924026727676392,
	"rewards/margins": 3.3190674781799316,
	"rewards/rejected": -1.8266645669937134,
	"step": 350
	},
	{
	"epoch": 0.92,
	"grad_norm": 165.46679700251414,
	"learning_rate": 9.561607795526006e-10,
	"logits/chosen": -4.49678373336792,
	"logits/rejected": -4.711674690246582,
	"logps/chosen": -246.95388793945312,
	"logps/rejected": -247.2928009033203,
	"loss": 0.2121,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": 1.468100905418396,
	"rewards/margins": 3.451129913330078,
	"rewards/rejected": -1.9830286502838135,
	"step": 360
	},
	{
	"epoch": 0.95,
	"grad_norm": 149.25359071163066,
	"learning_rate": 4.403065646083809e-10,
	"logits/chosen": -4.518364906311035,
	"logits/rejected": -4.680220603942871,
	"logps/chosen": -241.2300262451172,
	"logps/rejected": -255.6038818359375,
	"loss": 0.2103,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 1.5591168403625488,
	"rewards/margins": 3.434800386428833,
	"rewards/rejected": -1.8756835460662842,
	"step": 370
	},
	{
	"epoch": 0.97,
	"grad_norm": 160.57572024314433,
	"learning_rate": 1.2106819172520434e-10,
	"logits/chosen": -4.618407726287842,
	"logits/rejected": -4.8883843421936035,
	"logps/chosen": -246.15853881835938,
	"logps/rejected": -243.1090087890625,
	"loss": 0.2034,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": 1.5924150943756104,
	"rewards/margins": 3.8508572578430176,
	"rewards/rejected": -2.2584421634674072,
	"step": 380
	},
	{
	"epoch": 1.0,
	"grad_norm": 235.40189038757265,
	"learning_rate": 1.0013655036916758e-12,
	"logits/chosen": -4.611303329467773,
	"logits/rejected": -4.857443809509277,
	"logps/chosen": -242.1800994873047,
	"logps/rejected": -241.1270294189453,
	"loss": 0.199,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": 1.7492481470108032,
	"rewards/margins": 3.8104407787323,
	"rewards/rejected": -2.0611929893493652,
	"step": 390
	},
	{
	"epoch": 1.0,
	"step": 391,
	"total_flos": 0.0,
	"train_loss": 0.29024992444935965,
	"train_runtime": 6148.7126,
	"train_samples_per_second": 8.132,
	"train_steps_per_second": 0.064
	}
	],
	"logging_steps": 10,
	"max_steps": 391,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}