zephyr-7b-dpo-full / trainer_state.json

Model save

a6dadf5 verified about 2 months ago

No virus

22.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 100,
	"global_step": 391,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 210.34713052784278,
	"learning_rate": 2.5e-09,
	"logits/chosen": -4.623842239379883,
	"logits/rejected": -4.85917854309082,
	"logps/chosen": -239.31422424316406,
	"logps/rejected": -207.56365966796875,
	"loss": 0.6927,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.03,
	"grad_norm": 198.95172630432864,
	"learning_rate": 2.5e-08,
	"logits/chosen": -4.3338446617126465,
	"logits/rejected": -4.64424991607666,
	"logps/chosen": -265.20184326171875,
	"logps/rejected": -215.72174072265625,
	"loss": 0.6928,
	"rewards/accuracies": 0.4236111044883728,
	"rewards/chosen": -0.004745930898934603,
	"rewards/margins": -0.004067909903824329,
	"rewards/rejected": -0.0006780209369026124,
	"step": 10
	},
	{
	"epoch": 0.05,
	"grad_norm": 204.7891876677461,
	"learning_rate": 5e-08,
	"logits/chosen": -4.509727478027344,
	"logits/rejected": -4.74410343170166,
	"logps/chosen": -267.73052978515625,
	"logps/rejected": -216.7478485107422,
	"loss": 0.6872,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": 0.010470375418663025,
	"rewards/margins": 0.01739482954144478,
	"rewards/rejected": -0.006924452725797892,
	"step": 20
	},
	{
	"epoch": 0.08,
	"grad_norm": 204.94575488992174,
	"learning_rate": 7.5e-08,
	"logits/chosen": -4.5970940589904785,
	"logits/rejected": -4.777865409851074,
	"logps/chosen": -257.5598449707031,
	"logps/rejected": -215.4015350341797,
	"loss": 0.6544,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": 0.04864828661084175,
	"rewards/margins": 0.09208732843399048,
	"rewards/rejected": -0.04343904182314873,
	"step": 30
	},
	{
	"epoch": 0.1,
	"grad_norm": 163.67699084811588,
	"learning_rate": 1e-07,
	"logits/chosen": -4.643096923828125,
	"logits/rejected": -4.7387237548828125,
	"logps/chosen": -249.96743774414062,
	"logps/rejected": -223.3234405517578,
	"loss": 0.5584,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": 0.18158790469169617,
	"rewards/margins": 0.36420467495918274,
	"rewards/rejected": -0.18261677026748657,
	"step": 40
	},
	{
	"epoch": 0.13,
	"grad_norm": 125.1152304775479,
	"learning_rate": 9.979985922607475e-08,
	"logits/chosen": -4.558148384094238,
	"logits/rejected": -4.785082817077637,
	"logps/chosen": -265.6357727050781,
	"logps/rejected": -234.0360107421875,
	"loss": 0.45,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 0.3166799247264862,
	"rewards/margins": 0.7249041795730591,
	"rewards/rejected": -0.4082241952419281,
	"step": 50
	},
	{
	"epoch": 0.15,
	"grad_norm": 110.5697848266263,
	"learning_rate": 9.92010391574745e-08,
	"logits/chosen": -4.701218605041504,
	"logits/rejected": -4.855440139770508,
	"logps/chosen": -232.1560821533203,
	"logps/rejected": -235.8180389404297,
	"loss": 0.3379,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": 0.44831886887550354,
	"rewards/margins": 1.4881489276885986,
	"rewards/rejected": -1.039829969406128,
	"step": 60
	},
	{
	"epoch": 0.18,
	"grad_norm": 103.09926490168155,
	"learning_rate": 9.820833372667812e-08,
	"logits/chosen": -4.597586631774902,
	"logits/rejected": -4.846543312072754,
	"logps/chosen": -243.5035858154297,
	"logps/rejected": -245.3424072265625,
	"loss": 0.3085,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": 0.4819186329841614,
	"rewards/margins": 1.8609161376953125,
	"rewards/rejected": -1.378997564315796,
	"step": 70
	},
	{
	"epoch": 0.2,
	"grad_norm": 89.87848352821936,
	"learning_rate": 9.682969016701356e-08,
	"logits/chosen": -4.592278957366943,
	"logits/rejected": -4.840281963348389,
	"logps/chosen": -249.3519744873047,
	"logps/rejected": -261.445068359375,
	"loss": 0.2624,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": 0.593399703502655,
	"rewards/margins": 2.1497161388397217,
	"rewards/rejected": -1.5563163757324219,
	"step": 80
	},
	{
	"epoch": 0.23,
	"grad_norm": 98.45898295424381,
	"learning_rate": 9.507614539004081e-08,
	"logits/chosen": -4.667254447937012,
	"logits/rejected": -4.913816928863525,
	"logps/chosen": -235.763427734375,
	"logps/rejected": -244.2578582763672,
	"loss": 0.2462,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": 0.7724655866622925,
	"rewards/margins": 2.8438591957092285,
	"rewards/rejected": -2.0713934898376465,
	"step": 90
	},
	{
	"epoch": 0.26,
	"grad_norm": 87.96881533227138,
	"learning_rate": 9.296173762811083e-08,
	"logits/chosen": -4.5116472244262695,
	"logits/rejected": -4.829812049865723,
	"logps/chosen": -238.08468627929688,
	"logps/rejected": -269.5484619140625,
	"loss": 0.2472,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.931675910949707,
	"rewards/margins": 3.0536458492279053,
	"rewards/rejected": -2.1219699382781982,
	"step": 100
	},
	{
	"epoch": 0.26,
	"eval_logits/chosen": -4.58513879776001,
	"eval_logits/rejected": -4.80186128616333,
	"eval_logps/chosen": -394.6981201171875,
	"eval_logps/rejected": -515.9166259765625,
	"eval_loss": 0.9610964059829712,
	"eval_rewards/accuracies": 0.390625,
	"eval_rewards/chosen": -0.21118265390396118,
	"eval_rewards/margins": -0.3347358703613281,
	"eval_rewards/rejected": 0.12355318665504456,
	"eval_runtime": 97.8315,
	"eval_samples_per_second": 20.443,
	"eval_steps_per_second": 0.327,
	"step": 100
	},
	{
	"epoch": 0.28,
	"grad_norm": 84.98735748868098,
	"learning_rate": 9.050339404945832e-08,
	"logits/chosen": -4.55401611328125,
	"logits/rejected": -4.845933437347412,
	"logps/chosen": -229.4434356689453,
	"logps/rejected": -257.52984619140625,
	"loss": 0.2226,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": 0.9871166348457336,
	"rewards/margins": 3.0293149948120117,
	"rewards/rejected": -2.042198419570923,
	"step": 110
	},
	{
	"epoch": 0.31,
	"grad_norm": 75.78122724506682,
	"learning_rate": 8.77207952455395e-08,
	"logits/chosen": -4.49249792098999,
	"logits/rejected": -4.787415981292725,
	"logps/chosen": -252.7578125,
	"logps/rejected": -273.38555908203125,
	"loss": 0.2215,
	"rewards/accuracies": 0.9624999761581421,
	"rewards/chosen": 1.1615877151489258,
	"rewards/margins": 3.400435209274292,
	"rewards/rejected": -2.238847255706787,
	"step": 120
	},
	{
	"epoch": 0.33,
	"grad_norm": 109.1136183108071,
	"learning_rate": 8.463621767547997e-08,
	"logits/chosen": -4.589264869689941,
	"logits/rejected": -4.87318229675293,
	"logps/chosen": -239.29531860351562,
	"logps/rejected": -265.04693603515625,
	"loss": 0.2169,
	"rewards/accuracies": 0.893750011920929,
	"rewards/chosen": 0.9574294090270996,
	"rewards/margins": 3.4433422088623047,
	"rewards/rejected": -2.485912799835205,
	"step": 130
	},
	{
	"epoch": 0.36,
	"grad_norm": 79.72525878658313,
	"learning_rate": 8.127435532896387e-08,
	"logits/chosen": -4.636221885681152,
	"logits/rejected": -4.9098310470581055,
	"logps/chosen": -267.59625244140625,
	"logps/rejected": -288.02349853515625,
	"loss": 0.2063,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": 0.8299416303634644,
	"rewards/margins": 3.622443675994873,
	"rewards/rejected": -2.792501926422119,
	"step": 140
	},
	{
	"epoch": 0.38,
	"grad_norm": 94.45112212404622,
	"learning_rate": 7.766212203526569e-08,
	"logits/chosen": -4.643942832946777,
	"logits/rejected": -4.911728382110596,
	"logps/chosen": -233.4263153076172,
	"logps/rejected": -277.07818603515625,
	"loss": 0.2098,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": 0.9495984315872192,
	"rewards/margins": 3.8475449085235596,
	"rewards/rejected": -2.89794659614563,
	"step": 150
	},
	{
	"epoch": 0.41,
	"grad_norm": 85.35291313866578,
	"learning_rate": 7.382843600106538e-08,
	"logits/chosen": -4.690377235412598,
	"logits/rejected": -4.9024457931518555,
	"logps/chosen": -233.21981811523438,
	"logps/rejected": -271.2682189941406,
	"loss": 0.1861,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": 0.9118326306343079,
	"rewards/margins": 3.6947906017303467,
	"rewards/rejected": -2.7829582691192627,
	"step": 160
	},
	{
	"epoch": 0.43,
	"grad_norm": 75.89103255157417,
	"learning_rate": 6.980398830195784e-08,
	"logits/chosen": -4.554282188415527,
	"logits/rejected": -4.874223232269287,
	"logps/chosen": -236.4412078857422,
	"logps/rejected": -279.4911804199219,
	"loss": 0.1833,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": 1.2316501140594482,
	"rewards/margins": 4.21605920791626,
	"rewards/rejected": -2.9844090938568115,
	"step": 170
	},
	{
	"epoch": 0.46,
	"grad_norm": 77.81291773020575,
	"learning_rate": 6.562099718102787e-08,
	"logits/chosen": -4.651320934295654,
	"logits/rejected": -4.9173784255981445,
	"logps/chosen": -215.70126342773438,
	"logps/rejected": -251.5159149169922,
	"loss": 0.2065,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": 1.0581190586090088,
	"rewards/margins": 3.832904815673828,
	"rewards/rejected": -2.7747855186462402,
	"step": 180
	},
	{
	"epoch": 0.49,
	"grad_norm": 86.461876717381,
	"learning_rate": 6.131295012148612e-08,
	"logits/chosen": -4.617634296417236,
	"logits/rejected": -4.793360233306885,
	"logps/chosen": -239.32681274414062,
	"logps/rejected": -286.96124267578125,
	"loss": 0.2013,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": 1.0783030986785889,
	"rewards/margins": 3.6680614948272705,
	"rewards/rejected": -2.5897579193115234,
	"step": 190
	},
	{
	"epoch": 0.51,
	"grad_norm": 84.24320751887706,
	"learning_rate": 5.691433575823665e-08,
	"logits/chosen": -4.624228477478027,
	"logits/rejected": -4.830000877380371,
	"logps/chosen": -233.09713745117188,
	"logps/rejected": -271.84051513671875,
	"loss": 0.2112,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": 0.9521042108535767,
	"rewards/margins": 3.7768027782440186,
	"rewards/rejected": -2.8246986865997314,
	"step": 200
	},
	{
	"epoch": 0.51,
	"eval_logits/chosen": -4.606511116027832,
	"eval_logits/rejected": -4.8388166427612305,
	"eval_logps/chosen": -405.0722351074219,
	"eval_logps/rejected": -524.7885131835938,
	"eval_loss": 1.102483868598938,
	"eval_rewards/accuracies": 0.375,
	"eval_rewards/chosen": -0.729888916015625,
	"eval_rewards/margins": -0.40984660387039185,
	"eval_rewards/rejected": -0.32004231214523315,
	"eval_runtime": 97.8012,
	"eval_samples_per_second": 20.45,
	"eval_steps_per_second": 0.327,
	"step": 200
	},
	{
	"epoch": 0.54,
	"grad_norm": 70.97621814359026,
	"learning_rate": 5.2460367774593905e-08,
	"logits/chosen": -4.6944451332092285,
	"logits/rejected": -4.962179183959961,
	"logps/chosen": -243.93307495117188,
	"logps/rejected": -297.62066650390625,
	"loss": 0.1723,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": 1.0976004600524902,
	"rewards/margins": 4.546332836151123,
	"rewards/rejected": -3.448732376098633,
	"step": 210
	},
	{
	"epoch": 0.56,
	"grad_norm": 71.88477654183092,
	"learning_rate": 4.798670299452925e-08,
	"logits/chosen": -4.529160499572754,
	"logits/rejected": -4.8643479347229,
	"logps/chosen": -241.5579833984375,
	"logps/rejected": -293.224365234375,
	"loss": 0.1923,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": 1.0626676082611084,
	"rewards/margins": 4.490227699279785,
	"rewards/rejected": -3.4275600910186768,
	"step": 220
	},
	{
	"epoch": 0.59,
	"grad_norm": 83.09100453064212,
	"learning_rate": 4.3529155927297226e-08,
	"logits/chosen": -4.6047258377075195,
	"logits/rejected": -4.93651008605957,
	"logps/chosen": -241.11477661132812,
	"logps/rejected": -293.9808044433594,
	"loss": 0.2012,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": 0.9927155375480652,
	"rewards/margins": 4.5062031745910645,
	"rewards/rejected": -3.5134873390197754,
	"step": 230
	},
	{
	"epoch": 0.61,
	"grad_norm": 70.11336436391163,
	"learning_rate": 3.9123412049691636e-08,
	"logits/chosen": -4.588685035705566,
	"logits/rejected": -4.866146087646484,
	"logps/chosen": -252.31533813476562,
	"logps/rejected": -294.6343688964844,
	"loss": 0.1875,
	"rewards/accuracies": 0.9437500238418579,
	"rewards/chosen": 1.0253931283950806,
	"rewards/margins": 4.710432529449463,
	"rewards/rejected": -3.6850390434265137,
	"step": 240
	},
	{
	"epoch": 0.64,
	"grad_norm": 77.75874575792918,
	"learning_rate": 3.480474212128766e-08,
	"logits/chosen": -4.716187000274658,
	"logits/rejected": -4.966707229614258,
	"logps/chosen": -231.89279174804688,
	"logps/rejected": -266.51666259765625,
	"loss": 0.1825,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": 0.840434193611145,
	"rewards/margins": 3.7858078479766846,
	"rewards/rejected": -2.94537353515625,
	"step": 250
	},
	{
	"epoch": 0.66,
	"grad_norm": 97.12524424809816,
	"learning_rate": 3.060771981975726e-08,
	"logits/chosen": -4.585513114929199,
	"logits/rejected": -4.878482341766357,
	"logps/chosen": -234.92617797851562,
	"logps/rejected": -297.1214904785156,
	"loss": 0.1837,
	"rewards/accuracies": 0.956250011920929,
	"rewards/chosen": 0.9561206102371216,
	"rewards/margins": 4.824769973754883,
	"rewards/rejected": -3.86864972114563,
	"step": 260
	},
	{
	"epoch": 0.69,
	"grad_norm": 92.49874438996748,
	"learning_rate": 2.6565944956764818e-08,
	"logits/chosen": -4.684746742248535,
	"logits/rejected": -4.911890983581543,
	"logps/chosen": -243.29568481445312,
	"logps/rejected": -288.39111328125,
	"loss": 0.1961,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": 0.8868792653083801,
	"rewards/margins": 4.555182456970215,
	"rewards/rejected": -3.6683037281036377,
	"step": 270
	},
	{
	"epoch": 0.72,
	"grad_norm": 73.7028241699641,
	"learning_rate": 2.2711774490274766e-08,
	"logits/chosen": -4.634344577789307,
	"logits/rejected": -4.873081207275391,
	"logps/chosen": -245.1703338623047,
	"logps/rejected": -317.2539978027344,
	"loss": 0.1644,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 0.9668266177177429,
	"rewards/margins": 4.682557582855225,
	"rewards/rejected": -3.715731143951416,
	"step": 280
	},
	{
	"epoch": 0.74,
	"grad_norm": 142.25337407808868,
	"learning_rate": 1.9076063486687256e-08,
	"logits/chosen": -4.503401756286621,
	"logits/rejected": -4.866554260253906,
	"logps/chosen": -250.9346160888672,
	"logps/rejected": -283.41046142578125,
	"loss": 0.1799,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": 1.083687424659729,
	"rewards/margins": 4.472739219665527,
	"rewards/rejected": -3.389052152633667,
	"step": 290
	},
	{
	"epoch": 0.77,
	"grad_norm": 88.66793876665662,
	"learning_rate": 1.5687918106563324e-08,
	"logits/chosen": -4.625166416168213,
	"logits/rejected": -4.831929683685303,
	"logps/chosen": -232.6981658935547,
	"logps/rejected": -288.00457763671875,
	"loss": 0.195,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": 1.0354994535446167,
	"rewards/margins": 4.637454509735107,
	"rewards/rejected": -3.6019554138183594,
	"step": 300
	},
	{
	"epoch": 0.77,
	"eval_logits/chosen": -4.624210357666016,
	"eval_logits/rejected": -4.856749057769775,
	"eval_logps/chosen": -411.3396911621094,
	"eval_logps/rejected": -531.6535034179688,
	"eval_loss": 1.1301820278167725,
	"eval_rewards/accuracies": 0.41015625,
	"eval_rewards/chosen": -1.0432608127593994,
	"eval_rewards/margins": -0.3799673318862915,
	"eval_rewards/rejected": -0.6632934212684631,
	"eval_runtime": 97.9609,
	"eval_samples_per_second": 20.416,
	"eval_steps_per_second": 0.327,
	"step": 300
	},
	{
	"epoch": 0.79,
	"grad_norm": 90.90394303193246,
	"learning_rate": 1.257446259144494e-08,
	"logits/chosen": -4.541079044342041,
	"logits/rejected": -4.873132228851318,
	"logps/chosen": -239.60592651367188,
	"logps/rejected": -298.159423828125,
	"loss": 0.1847,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 1.076683759689331,
	"rewards/margins": 4.874758243560791,
	"rewards/rejected": -3.7980740070343018,
	"step": 310
	},
	{
	"epoch": 0.82,
	"grad_norm": 87.85310576006609,
	"learning_rate": 9.760622117187234e-09,
	"logits/chosen": -4.597599029541016,
	"logits/rejected": -4.9500837326049805,
	"logps/chosen": -227.94247436523438,
	"logps/rejected": -279.3809814453125,
	"loss": 0.1934,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": 0.8610901832580566,
	"rewards/margins": 4.507565498352051,
	"rewards/rejected": -3.6464743614196777,
	"step": 320
	},
	{
	"epoch": 0.84,
	"grad_norm": 85.81889719468313,
	"learning_rate": 7.2689232521989885e-09,
	"logits/chosen": -4.554391860961914,
	"logits/rejected": -4.864416599273682,
	"logps/chosen": -249.89169311523438,
	"logps/rejected": -304.54913330078125,
	"loss": 0.1773,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": 0.9128581881523132,
	"rewards/margins": 4.5053324699401855,
	"rewards/rejected": -3.5924744606018066,
	"step": 330
	},
	{
	"epoch": 0.87,
	"grad_norm": 77.2990699180903,
	"learning_rate": 5.119313618049309e-09,
	"logits/chosen": -4.570425987243652,
	"logits/rejected": -4.913475513458252,
	"logps/chosen": -250.6792449951172,
	"logps/rejected": -277.26556396484375,
	"loss": 0.1723,
	"rewards/accuracies": 0.9437500238418579,
	"rewards/chosen": 1.1733391284942627,
	"rewards/margins": 4.697513580322266,
	"rewards/rejected": -3.524174451828003,
	"step": 340
	},
	{
	"epoch": 0.9,
	"grad_norm": 74.61892537865367,
	"learning_rate": 3.3290021961708158e-09,
	"logits/chosen": -4.588479995727539,
	"logits/rejected": -4.761317253112793,
	"logps/chosen": -238.91921997070312,
	"logps/rejected": -291.2458190917969,
	"loss": 0.1937,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": 0.8275976181030273,
	"rewards/margins": 4.001389026641846,
	"rewards/rejected": -3.1737911701202393,
	"step": 350
	},
	{
	"epoch": 0.92,
	"grad_norm": 81.22407668854541,
	"learning_rate": 1.9123215591052013e-09,
	"logits/chosen": -4.583038806915283,
	"logits/rejected": -4.805889129638672,
	"logps/chosen": -244.8368682861328,
	"logps/rejected": -294.9869079589844,
	"loss": 0.1907,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": 0.8399018049240112,
	"rewards/margins": 4.216121673583984,
	"rewards/rejected": -3.3762192726135254,
	"step": 360
	},
	{
	"epoch": 0.95,
	"grad_norm": 75.17805842008224,
	"learning_rate": 8.806131292167618e-10,
	"logits/chosen": -4.595518112182617,
	"logits/rejected": -4.752079010009766,
	"logps/chosen": -239.1554412841797,
	"logps/rejected": -302.4869079589844,
	"loss": 0.1904,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": 0.8832891583442688,
	"rewards/margins": 4.165283679962158,
	"rewards/rejected": -3.281994581222534,
	"step": 370
	},
	{
	"epoch": 0.97,
	"grad_norm": 91.00267878372446,
	"learning_rate": 2.4213638345040867e-10,
	"logits/chosen": -4.70483922958374,
	"logits/rejected": -4.97845983505249,
	"logps/chosen": -242.5469207763672,
	"logps/rejected": -292.7474670410156,
	"loss": 0.1788,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": 0.9767888188362122,
	"rewards/margins": 4.587931156158447,
	"rewards/rejected": -3.61114239692688,
	"step": 380
	},
	{
	"epoch": 1.0,
	"grad_norm": 100.5241948062632,
	"learning_rate": 2.0027310073833516e-12,
	"logits/chosen": -4.696263313293457,
	"logits/rejected": -4.96966028213501,
	"logps/chosen": -238.3385772705078,
	"logps/rejected": -292.5868835449219,
	"loss": 0.1773,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": 1.066699743270874,
	"rewards/margins": 4.670289516448975,
	"rewards/rejected": -3.6035892963409424,
	"step": 390
	},
	{
	"epoch": 1.0,
	"step": 391,
	"total_flos": 0.0,
	"train_loss": 0.256967593336959,
	"train_runtime": 6146.1986,
	"train_samples_per_second": 8.135,
	"train_steps_per_second": 0.064
	}
	],
	"logging_steps": 10,
	"max_steps": 391,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}