phi-2-gpo-newSFT-b0.001-v10-lightai-i1 / trainer_state.json

Model save

4843c21 verified 2 months ago

No virus

23.1 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9984,
	"eval_steps": 500,
	"global_step": 468,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 1.0638297872340426e-07,
	"logits/chosen": 0.1359557956457138,
	"logits/rejected": 0.030706744641065598,
	"logps/chosen": -736.0869140625,
	"logps/rejected": -613.6344604492188,
	"loss": 2.0331,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.02,
	"learning_rate": 1.0638297872340427e-06,
	"logits/chosen": 0.11667777597904205,
	"logits/rejected": 0.26604601740837097,
	"logps/chosen": -546.5281982421875,
	"logps/rejected": -597.5736083984375,
	"loss": 2.1592,
	"rewards/accuracies": 0.4583333432674408,
	"rewards/chosen": 0.0007250224007293582,
	"rewards/margins": 0.00040180076030083,
	"rewards/rejected": 0.0003232216986361891,
	"step": 10
	},
	{
	"epoch": 0.04,
	"learning_rate": 2.1276595744680853e-06,
	"logits/chosen": 0.16373148560523987,
	"logits/rejected": 0.2677033543586731,
	"logps/chosen": -604.6590576171875,
	"logps/rejected": -649.482177734375,
	"loss": 2.0972,
	"rewards/accuracies": 0.4375,
	"rewards/chosen": -0.0005862273974344134,
	"rewards/margins": -0.0003054165281355381,
	"rewards/rejected": -0.0002808108984027058,
	"step": 20
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.191489361702128e-06,
	"logits/chosen": 0.14978544414043427,
	"logits/rejected": 0.1915779411792755,
	"logps/chosen": -594.8548583984375,
	"logps/rejected": -588.2429809570312,
	"loss": 2.122,
	"rewards/accuracies": 0.512499988079071,
	"rewards/chosen": -0.004188057966530323,
	"rewards/margins": 0.0009490737575106323,
	"rewards/rejected": -0.0051371315494179726,
	"step": 30
	},
	{
	"epoch": 0.09,
	"learning_rate": 4.255319148936171e-06,
	"logits/chosen": 0.16862796247005463,
	"logits/rejected": 0.23586151003837585,
	"logps/chosen": -574.7235107421875,
	"logps/rejected": -631.8544921875,
	"loss": 2.1863,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -0.01229151152074337,
	"rewards/margins": 0.005582691170275211,
	"rewards/rejected": -0.017874203622341156,
	"step": 40
	},
	{
	"epoch": 0.11,
	"learning_rate": 4.999373573764188e-06,
	"logits/chosen": 0.1411871314048767,
	"logits/rejected": 0.2258455753326416,
	"logps/chosen": -612.8582763671875,
	"logps/rejected": -636.5026245117188,
	"loss": 2.1508,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -0.04941480979323387,
	"rewards/margins": 0.019247086718678474,
	"rewards/rejected": -0.0686618983745575,
	"step": 50
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.988245838331339e-06,
	"logits/chosen": 0.17244111001491547,
	"logits/rejected": 0.17342150211334229,
	"logps/chosen": -634.6348266601562,
	"logps/rejected": -667.5384521484375,
	"loss": 2.0758,
	"rewards/accuracies": 0.581250011920929,
	"rewards/chosen": -0.13025899231433868,
	"rewards/margins": 0.05111612752079964,
	"rewards/rejected": -0.18137511610984802,
	"step": 60
	},
	{
	"epoch": 0.15,
	"learning_rate": 4.963268819535228e-06,
	"logits/chosen": 0.12650486826896667,
	"logits/rejected": 0.14093999564647675,
	"logps/chosen": -608.5107421875,
	"logps/rejected": -702.1578369140625,
	"loss": 2.0556,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": -0.21341009438037872,
	"rewards/margins": 0.09893321990966797,
	"rewards/rejected": -0.3123432993888855,
	"step": 70
	},
	{
	"epoch": 0.17,
	"learning_rate": 4.9245815365216115e-06,
	"logits/chosen": 0.19184628129005432,
	"logits/rejected": 0.2408786565065384,
	"logps/chosen": -679.4183349609375,
	"logps/rejected": -609.7093505859375,
	"loss": 2.1137,
	"rewards/accuracies": 0.5562499761581421,
	"rewards/chosen": -0.21463651955127716,
	"rewards/margins": 0.05772104859352112,
	"rewards/rejected": -0.2723575234413147,
	"step": 80
	},
	{
	"epoch": 0.19,
	"learning_rate": 4.872399318152594e-06,
	"logits/chosen": 0.1250939965248108,
	"logits/rejected": 0.18045032024383545,
	"logps/chosen": -622.2333374023438,
	"logps/rejected": -655.4575805664062,
	"loss": 2.0044,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": -0.1839352548122406,
	"rewards/margins": 0.10977420955896378,
	"rewards/rejected": -0.2937094569206238,
	"step": 90
	},
	{
	"epoch": 0.21,
	"learning_rate": 4.807012604511542e-06,
	"logits/chosen": 0.18265239894390106,
	"logits/rejected": 0.2614283859729767,
	"logps/chosen": -649.8997802734375,
	"logps/rejected": -658.8975830078125,
	"loss": 1.9995,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -0.16064395010471344,
	"rewards/margins": 0.08805385231971741,
	"rewards/rejected": -0.24869783222675323,
	"step": 100
	},
	{
	"epoch": 0.23,
	"learning_rate": 4.728785330347771e-06,
	"logits/chosen": 0.2479465901851654,
	"logits/rejected": 0.2932817339897156,
	"logps/chosen": -674.0836181640625,
	"logps/rejected": -645.6417236328125,
	"loss": 1.895,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": -0.12688389420509338,
	"rewards/margins": 0.08782283961772919,
	"rewards/rejected": -0.21470670402050018,
	"step": 110
	},
	{
	"epoch": 0.26,
	"learning_rate": 4.63815289945858e-06,
	"logits/chosen": 0.19643843173980713,
	"logits/rejected": 0.2974274456501007,
	"logps/chosen": -573.49658203125,
	"logps/rejected": -666.606689453125,
	"loss": 1.89,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.09824337065219879,
	"rewards/margins": 0.13982543349266052,
	"rewards/rejected": -0.2380688190460205,
	"step": 120
	},
	{
	"epoch": 0.28,
	"learning_rate": 4.535619761282989e-06,
	"logits/chosen": 0.23821644484996796,
	"logits/rejected": 0.288485586643219,
	"logps/chosen": -590.9158935546875,
	"logps/rejected": -623.23974609375,
	"loss": 1.9389,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -0.14589470624923706,
	"rewards/margins": 0.12624357640743256,
	"rewards/rejected": -0.2721382975578308,
	"step": 130
	},
	{
	"epoch": 0.3,
	"learning_rate": 4.42175660319555e-06,
	"logits/chosen": 0.2631734013557434,
	"logits/rejected": 0.2810806632041931,
	"logps/chosen": -645.8680419921875,
	"logps/rejected": -654.8004760742188,
	"loss": 1.8203,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -0.20492109656333923,
	"rewards/margins": 0.20386295020580292,
	"rewards/rejected": -0.40878406167030334,
	"step": 140
	},
	{
	"epoch": 0.32,
	"learning_rate": 4.297197174127619e-06,
	"logits/chosen": 0.2586398422718048,
	"logits/rejected": 0.3086986839771271,
	"logps/chosen": -619.4220581054688,
	"logps/rejected": -697.2005615234375,
	"loss": 1.7553,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -0.24971242249011993,
	"rewards/margins": 0.2221045196056366,
	"rewards/rejected": -0.4718169569969177,
	"step": 150
	},
	{
	"epoch": 0.34,
	"learning_rate": 4.162634757195418e-06,
	"logits/chosen": 0.2681664526462555,
	"logits/rejected": 0.2807798683643341,
	"logps/chosen": -630.39306640625,
	"logps/rejected": -645.6117553710938,
	"loss": 1.8404,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -0.19384464621543884,
	"rewards/margins": 0.1983100175857544,
	"rewards/rejected": -0.39215466380119324,
	"step": 160
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.018818310967843e-06,
	"logits/chosen": 0.27496370673179626,
	"logits/rejected": 0.30781346559524536,
	"logps/chosen": -559.2887573242188,
	"logps/rejected": -601.3917846679688,
	"loss": 1.8382,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -0.0747746005654335,
	"rewards/margins": 0.19791939854621887,
	"rewards/rejected": -0.2726939916610718,
	"step": 170
	},
	{
	"epoch": 0.38,
	"learning_rate": 3.866548300851254e-06,
	"logits/chosen": 0.2482290267944336,
	"logits/rejected": 0.2852781414985657,
	"logps/chosen": -620.8068237304688,
	"logps/rejected": -665.9005737304688,
	"loss": 1.8229,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.10497160255908966,
	"rewards/margins": 0.20543234050273895,
	"rewards/rejected": -0.3104039430618286,
	"step": 180
	},
	{
	"epoch": 0.41,
	"learning_rate": 3.706672243793271e-06,
	"logits/chosen": 0.2958913743495941,
	"logits/rejected": 0.3795389235019684,
	"logps/chosen": -611.8587646484375,
	"logps/rejected": -658.9635009765625,
	"loss": 1.7752,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.0870656967163086,
	"rewards/margins": 0.23995642364025116,
	"rewards/rejected": -0.32702213525772095,
	"step": 190
	},
	{
	"epoch": 0.43,
	"learning_rate": 3.5400799911032357e-06,
	"logits/chosen": 0.2935205101966858,
	"logits/rejected": 0.3416239321231842,
	"logps/chosen": -660.2877197265625,
	"logps/rejected": -730.04541015625,
	"loss": 1.7351,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.1828436255455017,
	"rewards/margins": 0.3010478913784027,
	"rewards/rejected": -0.4838915765285492,
	"step": 200
	},
	{
	"epoch": 0.45,
	"learning_rate": 3.3676987756445894e-06,
	"logits/chosen": 0.24807122349739075,
	"logits/rejected": 0.32862648367881775,
	"logps/chosen": -605.8773193359375,
	"logps/rejected": -641.6677856445312,
	"loss": 1.8245,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.13868902623653412,
	"rewards/margins": 0.2735101878643036,
	"rewards/rejected": -0.4121991991996765,
	"step": 210
	},
	{
	"epoch": 0.47,
	"learning_rate": 3.1904880509659397e-06,
	"logits/chosen": 0.270724892616272,
	"logits/rejected": 0.3151053786277771,
	"logps/chosen": -650.7314453125,
	"logps/rejected": -708.2312622070312,
	"loss": 1.735,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -0.16527561843395233,
	"rewards/margins": 0.2484448254108429,
	"rewards/rejected": -0.4137204587459564,
	"step": 220
	},
	{
	"epoch": 0.49,
	"learning_rate": 3.0094341510955697e-06,
	"logits/chosen": 0.19233042001724243,
	"logits/rejected": 0.29483872652053833,
	"logps/chosen": -663.5474243164062,
	"logps/rejected": -743.0173950195312,
	"loss": 1.7378,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -0.14797742664813995,
	"rewards/margins": 0.3706679344177246,
	"rewards/rejected": -0.5186454057693481,
	"step": 230
	},
	{
	"epoch": 0.51,
	"learning_rate": 2.825544800722376e-06,
	"logits/chosen": 0.2124979943037033,
	"logits/rejected": 0.3365432620048523,
	"logps/chosen": -619.9740600585938,
	"logps/rejected": -700.7166748046875,
	"loss": 1.8168,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": -0.1956629902124405,
	"rewards/margins": 0.2987174093723297,
	"rewards/rejected": -0.494380384683609,
	"step": 240
	},
	{
	"epoch": 0.53,
	"learning_rate": 2.639843506318899e-06,
	"logits/chosen": 0.2796134054660797,
	"logits/rejected": 0.2740449607372284,
	"logps/chosen": -582.3416748046875,
	"logps/rejected": -674.327880859375,
	"loss": 1.8901,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -0.19822832942008972,
	"rewards/margins": 0.19228845834732056,
	"rewards/rejected": -0.3905167877674103,
	"step": 250
	},
	{
	"epoch": 0.55,
	"learning_rate": 2.4533638594248094e-06,
	"logits/chosen": 0.25897207856178284,
	"logits/rejected": 0.31485193967819214,
	"logps/chosen": -604.8118896484375,
	"logps/rejected": -667.9144897460938,
	"loss": 1.8606,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.14205999672412872,
	"rewards/margins": 0.28450149297714233,
	"rewards/rejected": -0.42656150460243225,
	"step": 260
	},
	{
	"epoch": 0.58,
	"learning_rate": 2.2671437837980943e-06,
	"logits/chosen": 0.22259187698364258,
	"logits/rejected": 0.22855930030345917,
	"logps/chosen": -593.6612548828125,
	"logps/rejected": -673.6566162109375,
	"loss": 1.7486,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.14823240041732788,
	"rewards/margins": 0.2802043557167053,
	"rewards/rejected": -0.4284366965293884,
	"step": 270
	},
	{
	"epoch": 0.6,
	"learning_rate": 2.082219758453629e-06,
	"logits/chosen": 0.2169434130191803,
	"logits/rejected": 0.2703471779823303,
	"logps/chosen": -611.6048583984375,
	"logps/rejected": -682.5806884765625,
	"loss": 1.6556,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.11671599000692368,
	"rewards/margins": 0.26952022314071655,
	"rewards/rejected": -0.3862362205982208,
	"step": 280
	},
	{
	"epoch": 0.62,
	"learning_rate": 1.899621048743019e-06,
	"logits/chosen": 0.22146745026111603,
	"logits/rejected": 0.34733515977859497,
	"logps/chosen": -603.9933471679688,
	"logps/rejected": -673.3649291992188,
	"loss": 1.7238,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -0.20439250767230988,
	"rewards/margins": 0.2682177424430847,
	"rewards/rejected": -0.4726102352142334,
	"step": 290
	},
	{
	"epoch": 0.64,
	"learning_rate": 1.7203639775848423e-06,
	"logits/chosen": 0.19099445641040802,
	"logits/rejected": 0.3011043667793274,
	"logps/chosen": -606.6263427734375,
	"logps/rejected": -639.6136474609375,
	"loss": 1.8381,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -0.17796705663204193,
	"rewards/margins": 0.23042461276054382,
	"rewards/rejected": -0.40839165449142456,
	"step": 300
	},
	{
	"epoch": 0.66,
	"learning_rate": 1.5454462687309445e-06,
	"logits/chosen": 0.2036764919757843,
	"logits/rejected": 0.26239025592803955,
	"logps/chosen": -602.3845825195312,
	"logps/rejected": -666.4627075195312,
	"loss": 1.8042,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.1518932580947876,
	"rewards/margins": 0.2536298632621765,
	"rewards/rejected": -0.4055231511592865,
	"step": 310
	},
	{
	"epoch": 0.68,
	"learning_rate": 1.3758414935535147e-06,
	"logits/chosen": 0.21739721298217773,
	"logits/rejected": 0.2840099334716797,
	"logps/chosen": -636.0455322265625,
	"logps/rejected": -709.1137084960938,
	"loss": 1.65,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -0.16815349459648132,
	"rewards/margins": 0.29733169078826904,
	"rewards/rejected": -0.465485155582428,
	"step": 320
	},
	{
	"epoch": 0.7,
	"learning_rate": 1.2124936522614622e-06,
	"logits/chosen": 0.20938508212566376,
	"logits/rejected": 0.22490420937538147,
	"logps/chosen": -615.7994995117188,
	"logps/rejected": -669.2200927734375,
	"loss": 1.7098,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.18394342064857483,
	"rewards/margins": 0.31033387780189514,
	"rewards/rejected": -0.49427732825279236,
	"step": 330
	},
	{
	"epoch": 0.73,
	"learning_rate": 1.0563119197063934e-06,
	"logits/chosen": 0.23827771842479706,
	"logits/rejected": 0.2663131356239319,
	"logps/chosen": -612.7750244140625,
	"logps/rejected": -685.60107421875,
	"loss": 1.7109,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -0.19161880016326904,
	"rewards/margins": 0.26392242312431335,
	"rewards/rejected": -0.4555412232875824,
	"step": 340
	},
	{
	"epoch": 0.75,
	"learning_rate": 9.081655850224449e-07,
	"logits/chosen": 0.19827114045619965,
	"logits/rejected": 0.2343660295009613,
	"logps/chosen": -628.5892333984375,
	"logps/rejected": -699.3311767578125,
	"loss": 1.6981,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.23514249920845032,
	"rewards/margins": 0.30311545729637146,
	"rewards/rejected": -0.5382579565048218,
	"step": 350
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.688792132653111e-07,
	"logits/chosen": 0.19120459258556366,
	"logits/rejected": 0.2861759066581726,
	"logps/chosen": -659.7528076171875,
	"logps/rejected": -748.490234375,
	"loss": 1.6967,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.19031907618045807,
	"rewards/margins": 0.34352895617485046,
	"rewards/rejected": -0.533847987651825,
	"step": 360
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.392280559802341e-07,
	"logits/chosen": 0.2406836450099945,
	"logits/rejected": 0.23908407986164093,
	"logps/chosen": -658.35400390625,
	"logps/rejected": -720.8883666992188,
	"loss": 1.7368,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.23702308535575867,
	"rewards/margins": 0.24957367777824402,
	"rewards/rejected": -0.48659682273864746,
	"step": 370
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.199337362431792e-07,
	"logits/chosen": 0.26719361543655396,
	"logits/rejected": 0.1743316501379013,
	"logps/chosen": -621.3897094726562,
	"logps/rejected": -680.0,
	"loss": 1.7425,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.22942551970481873,
	"rewards/margins": 0.26667481660842896,
	"rewards/rejected": -0.49610036611557007,
	"step": 380
	},
	{
	"epoch": 0.83,
	"learning_rate": 4.1166023219176176e-07,
	"logits/chosen": 0.21561181545257568,
	"logits/rejected": 0.286629855632782,
	"logps/chosen": -654.0867919921875,
	"logps/rejected": -668.467529296875,
	"loss": 1.6798,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.21663355827331543,
	"rewards/margins": 0.2600599527359009,
	"rewards/rejected": -0.4766935408115387,
	"step": 390
	},
	{
	"epoch": 0.85,
	"learning_rate": 3.150101814011136e-07,
	"logits/chosen": 0.16323356330394745,
	"logits/rejected": 0.21500280499458313,
	"logps/chosen": -600.4713134765625,
	"logps/rejected": -730.5057983398438,
	"loss": 1.7084,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.19050315022468567,
	"rewards/margins": 0.28324562311172485,
	"rewards/rejected": -0.47374874353408813,
	"step": 400
	},
	{
	"epoch": 0.87,
	"learning_rate": 2.3052152667409289e-07,
	"logits/chosen": 0.1962326616048813,
	"logits/rejected": 0.22506949305534363,
	"logps/chosen": -614.2760009765625,
	"logps/rejected": -675.3383178710938,
	"loss": 1.7679,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -0.1459427773952484,
	"rewards/margins": 0.3252793252468109,
	"rewards/rejected": -0.4712221026420593,
	"step": 410
	},
	{
	"epoch": 0.9,
	"learning_rate": 1.5866452191498488e-07,
	"logits/chosen": 0.20015636086463928,
	"logits/rejected": 0.25162121653556824,
	"logps/chosen": -651.9236450195312,
	"logps/rejected": -707.2882080078125,
	"loss": 1.7514,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -0.23218846321105957,
	"rewards/margins": 0.2290785312652588,
	"rewards/rejected": -0.46126699447631836,
	"step": 420
	},
	{
	"epoch": 0.92,
	"learning_rate": 9.983911475163727e-08,
	"logits/chosen": 0.16698592901229858,
	"logits/rejected": 0.2591376304626465,
	"logps/chosen": -590.045166015625,
	"logps/rejected": -642.6705322265625,
	"loss": 1.8093,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -0.17988340556621552,
	"rewards/margins": 0.23005299270153046,
	"rewards/rejected": -0.4099363684654236,
	"step": 430
	},
	{
	"epoch": 0.94,
	"learning_rate": 5.437272047405712e-08,
	"logits/chosen": 0.1858983337879181,
	"logits/rejected": 0.3158418536186218,
	"logps/chosen": -559.8682250976562,
	"logps/rejected": -648.7040405273438,
	"loss": 1.7686,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": -0.19649046659469604,
	"rewards/margins": 0.26454511284828186,
	"rewards/rejected": -0.4610355794429779,
	"step": 440
	},
	{
	"epoch": 0.96,
	"learning_rate": 2.251839967945535e-08,
	"logits/chosen": 0.13786078989505768,
	"logits/rejected": 0.2333669662475586,
	"logps/chosen": -645.2703857421875,
	"logps/rejected": -707.0418090820312,
	"loss": 1.6172,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.17300908267498016,
	"rewards/margins": 0.3292023241519928,
	"rewards/rejected": -0.5022113919258118,
	"step": 450
	},
	{
	"epoch": 0.98,
	"learning_rate": 4.453449766758933e-09,
	"logits/chosen": 0.1742466688156128,
	"logits/rejected": 0.2268284559249878,
	"logps/chosen": -576.7985229492188,
	"logps/rejected": -652.7803344726562,
	"loss": 1.7297,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.24071533977985382,
	"rewards/margins": 0.18981412053108215,
	"rewards/rejected": -0.4305294454097748,
	"step": 460
	},
	{
	"epoch": 1.0,
	"step": 468,
	"total_flos": 0.0,
	"train_loss": 1.8394590188295414,
	"train_runtime": 15861.5475,
	"train_samples_per_second": 1.891,
	"train_steps_per_second": 0.03
	}
	],
	"logging_steps": 10,
	"max_steps": 468,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}