zephyr-7b-dpo-full / trainer_state.json

Model save

1edbb80 verified about 2 months ago

No virus

25.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 100,
	"global_step": 478,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 1.0416666666666666e-08,
	"logits/chosen": -2.8386030197143555,
	"logits/rejected": -2.823939323425293,
	"logps/chosen": -324.3727722167969,
	"logps/rejected": -231.64634704589844,
	"loss": 0.2826,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.02,
	"learning_rate": 1.0416666666666667e-07,
	"logits/chosen": -2.8247194290161133,
	"logits/rejected": -2.750765800476074,
	"logps/chosen": -275.7482604980469,
	"logps/rejected": -253.39404296875,
	"loss": 0.2847,
	"rewards/accuracies": 0.4513888955116272,
	"rewards/chosen": 0.00012852638610638678,
	"rewards/margins": -0.0004244056181050837,
	"rewards/rejected": 0.0005529320333153009,
	"step": 10
	},
	{
	"epoch": 0.04,
	"learning_rate": 2.0833333333333333e-07,
	"logits/chosen": -2.7973198890686035,
	"logits/rejected": -2.779845714569092,
	"logps/chosen": -261.89483642578125,
	"logps/rejected": -257.04736328125,
	"loss": 0.2856,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": 0.0005934558575972915,
	"rewards/margins": 0.0017298649763688445,
	"rewards/rejected": -0.001136409118771553,
	"step": 20
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.1249999999999997e-07,
	"logits/chosen": -2.783583164215088,
	"logits/rejected": -2.777108907699585,
	"logps/chosen": -294.8003234863281,
	"logps/rejected": -259.10296630859375,
	"loss": 0.2889,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": 0.0027175676077604294,
	"rewards/margins": 0.011478239670395851,
	"rewards/rejected": -0.008760671131312847,
	"step": 30
	},
	{
	"epoch": 0.08,
	"learning_rate": 4.1666666666666667e-07,
	"logits/chosen": -2.802429676055908,
	"logits/rejected": -2.7715487480163574,
	"logps/chosen": -284.63958740234375,
	"logps/rejected": -264.9128112792969,
	"loss": 0.2823,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.007285858038812876,
	"rewards/margins": 0.022248882800340652,
	"rewards/rejected": -0.029534736648201942,
	"step": 40
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.999733114418725e-07,
	"logits/chosen": -2.781130790710449,
	"logits/rejected": -2.718773126602173,
	"logps/chosen": -284.725341796875,
	"logps/rejected": -255.60073852539062,
	"loss": 0.2671,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.023446276783943176,
	"rewards/margins": 0.06585647165775299,
	"rewards/rejected": -0.08930274099111557,
	"step": 50
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.990398100856366e-07,
	"logits/chosen": -2.8104348182678223,
	"logits/rejected": -2.788311243057251,
	"logps/chosen": -297.0313720703125,
	"logps/rejected": -266.0052795410156,
	"loss": 0.2428,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": -0.10381942987442017,
	"rewards/margins": 0.084610715508461,
	"rewards/rejected": -0.18843016028404236,
	"step": 60
	},
	{
	"epoch": 0.15,
	"learning_rate": 4.967775735898179e-07,
	"logits/chosen": -2.704342842102051,
	"logits/rejected": -2.6683297157287598,
	"logps/chosen": -276.36395263671875,
	"logps/rejected": -271.9848327636719,
	"loss": 0.2192,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.16314834356307983,
	"rewards/margins": 0.17039458453655243,
	"rewards/rejected": -0.33354294300079346,
	"step": 70
	},
	{
	"epoch": 0.17,
	"learning_rate": 4.931986719649298e-07,
	"logits/chosen": -2.7222819328308105,
	"logits/rejected": -2.7045040130615234,
	"logps/chosen": -298.33831787109375,
	"logps/rejected": -293.718017578125,
	"loss": 0.1999,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.30510228872299194,
	"rewards/margins": 0.1686253696680069,
	"rewards/rejected": -0.47372761368751526,
	"step": 80
	},
	{
	"epoch": 0.19,
	"learning_rate": 4.883222001996351e-07,
	"logits/chosen": -2.759632110595703,
	"logits/rejected": -2.734144449234009,
	"logps/chosen": -331.0855712890625,
	"logps/rejected": -346.59991455078125,
	"loss": 0.1682,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.45922285318374634,
	"rewards/margins": 0.3295659124851227,
	"rewards/rejected": -0.7887887954711914,
	"step": 90
	},
	{
	"epoch": 0.21,
	"learning_rate": 4.821741763807186e-07,
	"logits/chosen": -2.6711103916168213,
	"logits/rejected": -2.664060115814209,
	"logps/chosen": -336.68927001953125,
	"logps/rejected": -331.12799072265625,
	"loss": 0.1643,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -0.4235810339450836,
	"rewards/margins": 0.24597103893756866,
	"rewards/rejected": -0.6695520281791687,
	"step": 100
	},
	{
	"epoch": 0.21,
	"eval_logits/chosen": -2.790248394012451,
	"eval_logits/rejected": -2.7691245079040527,
	"eval_logps/chosen": -297.79962158203125,
	"eval_logps/rejected": -337.0708923339844,
	"eval_loss": 0.15584461390972137,
	"eval_rewards/accuracies": 0.74609375,
	"eval_rewards/chosen": -0.4075998365879059,
	"eval_rewards/margins": 0.38957637548446655,
	"eval_rewards/rejected": -0.79717618227005,
	"eval_runtime": 53.5413,
	"eval_samples_per_second": 37.354,
	"eval_steps_per_second": 0.598,
	"step": 100
	},
	{
	"epoch": 0.23,
	"learning_rate": 4.747874028753375e-07,
	"logits/chosen": -2.7711846828460693,
	"logits/rejected": -2.7162532806396484,
	"logps/chosen": -322.896484375,
	"logps/rejected": -321.31158447265625,
	"loss": 0.1423,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.4842161536216736,
	"rewards/margins": 0.4429897367954254,
	"rewards/rejected": -0.9272058606147766,
	"step": 110
	},
	{
	"epoch": 0.25,
	"learning_rate": 4.662012913161997e-07,
	"logits/chosen": -2.6857857704162598,
	"logits/rejected": -2.664361000061035,
	"logps/chosen": -340.3297119140625,
	"logps/rejected": -381.2372741699219,
	"loss": 0.1325,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.7687980532646179,
	"rewards/margins": 0.4345701336860657,
	"rewards/rejected": -1.203368067741394,
	"step": 120
	},
	{
	"epoch": 0.27,
	"learning_rate": 4.5646165232345103e-07,
	"logits/chosen": -2.679908037185669,
	"logits/rejected": -2.661154270172119,
	"logps/chosen": -350.47247314453125,
	"logps/rejected": -386.91656494140625,
	"loss": 0.1191,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.8761329650878906,
	"rewards/margins": 0.5328775644302368,
	"rewards/rejected": -1.4090105295181274,
	"step": 130
	},
	{
	"epoch": 0.29,
	"learning_rate": 4.456204510851956e-07,
	"logits/chosen": -2.622180461883545,
	"logits/rejected": -2.604306697845459,
	"logps/chosen": -338.3455505371094,
	"logps/rejected": -356.08990478515625,
	"loss": 0.1244,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -0.8404749035835266,
	"rewards/margins": 0.39392346143722534,
	"rewards/rejected": -1.2343984842300415,
	"step": 140
	},
	{
	"epoch": 0.31,
	"learning_rate": 4.337355301007335e-07,
	"logits/chosen": -2.541025400161743,
	"logits/rejected": -2.5166730880737305,
	"logps/chosen": -345.60760498046875,
	"logps/rejected": -372.7431335449219,
	"loss": 0.1258,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -0.7515507936477661,
	"rewards/margins": 0.42334675788879395,
	"rewards/rejected": -1.17489755153656,
	"step": 150
	},
	{
	"epoch": 0.33,
	"learning_rate": 4.2087030056579986e-07,
	"logits/chosen": -2.5379557609558105,
	"logits/rejected": -2.528388261795044,
	"logps/chosen": -345.44384765625,
	"logps/rejected": -388.0000915527344,
	"loss": 0.1209,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -0.8115363121032715,
	"rewards/margins": 0.39176443219184875,
	"rewards/rejected": -1.2033007144927979,
	"step": 160
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.070934040463998e-07,
	"logits/chosen": -2.508551836013794,
	"logits/rejected": -2.4616193771362305,
	"logps/chosen": -371.34246826171875,
	"logps/rejected": -380.660888671875,
	"loss": 0.1105,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.9994179606437683,
	"rewards/margins": 0.4626193940639496,
	"rewards/rejected": -1.4620373249053955,
	"step": 170
	},
	{
	"epoch": 0.38,
	"learning_rate": 3.9247834624635404e-07,
	"logits/chosen": -2.51965594291687,
	"logits/rejected": -2.5132761001586914,
	"logps/chosen": -332.5484924316406,
	"logps/rejected": -384.0250549316406,
	"loss": 0.1124,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.9845203161239624,
	"rewards/margins": 0.4795452654361725,
	"rewards/rejected": -1.4640657901763916,
	"step": 180
	},
	{
	"epoch": 0.4,
	"learning_rate": 3.7710310482256523e-07,
	"logits/chosen": -2.55594539642334,
	"logits/rejected": -2.5516602993011475,
	"logps/chosen": -353.2313537597656,
	"logps/rejected": -384.13861083984375,
	"loss": 0.1058,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.9792869687080383,
	"rewards/margins": 0.40680208802223206,
	"rewards/rejected": -1.3860890865325928,
	"step": 190
	},
	{
	"epoch": 0.42,
	"learning_rate": 3.610497133404795e-07,
	"logits/chosen": -2.5069775581359863,
	"logits/rejected": -2.5189363956451416,
	"logps/chosen": -398.85382080078125,
	"logps/rejected": -431.91455078125,
	"loss": 0.1003,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -1.2246520519256592,
	"rewards/margins": 0.3960326015949249,
	"rewards/rejected": -1.6206846237182617,
	"step": 200
	},
	{
	"epoch": 0.42,
	"eval_logits/chosen": -2.5340371131896973,
	"eval_logits/rejected": -2.513735294342041,
	"eval_logps/chosen": -384.15533447265625,
	"eval_logps/rejected": -450.7552185058594,
	"eval_loss": 0.0996941402554512,
	"eval_rewards/accuracies": 0.703125,
	"eval_rewards/chosen": -1.2711572647094727,
	"eval_rewards/margins": 0.6628624200820923,
	"eval_rewards/rejected": -1.934019684791565,
	"eval_runtime": 53.511,
	"eval_samples_per_second": 37.375,
	"eval_steps_per_second": 0.598,
	"step": 200
	},
	{
	"epoch": 0.44,
	"learning_rate": 3.4440382358952115e-07,
	"logits/chosen": -2.455578565597534,
	"logits/rejected": -2.446720838546753,
	"logps/chosen": -391.07830810546875,
	"logps/rejected": -428.397705078125,
	"loss": 0.1038,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.3349438905715942,
	"rewards/margins": 0.5562185645103455,
	"rewards/rejected": -1.8911622762680054,
	"step": 210
	},
	{
	"epoch": 0.46,
	"learning_rate": 3.272542485937368e-07,
	"logits/chosen": -2.551090955734253,
	"logits/rejected": -2.529384136199951,
	"logps/chosen": -385.6699523925781,
	"logps/rejected": -405.87615966796875,
	"loss": 0.1138,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -1.1878398656845093,
	"rewards/margins": 0.44445449113845825,
	"rewards/rejected": -1.6322942972183228,
	"step": 220
	},
	{
	"epoch": 0.48,
	"learning_rate": 3.096924887558854e-07,
	"logits/chosen": -2.5678157806396484,
	"logits/rejected": -2.5255255699157715,
	"logps/chosen": -411.07745361328125,
	"logps/rejected": -404.2816467285156,
	"loss": 0.1149,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.9748584628105164,
	"rewards/margins": 0.47213855385780334,
	"rewards/rejected": -1.446997046470642,
	"step": 230
	},
	{
	"epoch": 0.5,
	"learning_rate": 2.9181224366319943e-07,
	"logits/chosen": -2.4429595470428467,
	"logits/rejected": -2.4049136638641357,
	"logps/chosen": -386.62530517578125,
	"logps/rejected": -397.7767028808594,
	"loss": 0.1092,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -1.1572192907333374,
	"rewards/margins": 0.4687051773071289,
	"rewards/rejected": -1.6259244680404663,
	"step": 240
	},
	{
	"epoch": 0.52,
	"learning_rate": 2.7370891215954565e-07,
	"logits/chosen": -2.400578260421753,
	"logits/rejected": -2.3846592903137207,
	"logps/chosen": -413.29266357421875,
	"logps/rejected": -441.35748291015625,
	"loss": 0.0928,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -1.3619310855865479,
	"rewards/margins": 0.6331827044487,
	"rewards/rejected": -1.9951136112213135,
	"step": 250
	},
	{
	"epoch": 0.54,
	"learning_rate": 2.55479083351317e-07,
	"logits/chosen": -2.435859203338623,
	"logits/rejected": -2.4128081798553467,
	"logps/chosen": -418.8388671875,
	"logps/rejected": -462.96282958984375,
	"loss": 0.097,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -1.2928632497787476,
	"rewards/margins": 0.7572471499443054,
	"rewards/rejected": -2.050110340118408,
	"step": 260
	},
	{
	"epoch": 0.56,
	"learning_rate": 2.3722002126275822e-07,
	"logits/chosen": -2.3607535362243652,
	"logits/rejected": -2.3512327671051025,
	"logps/chosen": -393.47845458984375,
	"logps/rejected": -424.65692138671875,
	"loss": 0.0942,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -1.2448090314865112,
	"rewards/margins": 0.5817195177078247,
	"rewards/rejected": -1.8265281915664673,
	"step": 270
	},
	{
	"epoch": 0.59,
	"learning_rate": 2.19029145890313e-07,
	"logits/chosen": -2.384596586227417,
	"logits/rejected": -2.357322931289673,
	"logps/chosen": -401.50152587890625,
	"logps/rejected": -447.069580078125,
	"loss": 0.0894,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -1.463189721107483,
	"rewards/margins": 0.627885103225708,
	"rewards/rejected": -2.0910747051239014,
	"step": 280
	},
	{
	"epoch": 0.61,
	"learning_rate": 2.0100351342479216e-07,
	"logits/chosen": -2.3855137825012207,
	"logits/rejected": -2.334260940551758,
	"logps/chosen": -441.15118408203125,
	"logps/rejected": -456.8433532714844,
	"loss": 0.0895,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -1.5582000017166138,
	"rewards/margins": 0.6062092185020447,
	"rewards/rejected": -2.1644091606140137,
	"step": 290
	},
	{
	"epoch": 0.63,
	"learning_rate": 1.8323929841460178e-07,
	"logits/chosen": -2.4264094829559326,
	"logits/rejected": -2.403550624847412,
	"logps/chosen": -412.9310607910156,
	"logps/rejected": -471.4112854003906,
	"loss": 0.0953,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.2313965559005737,
	"rewards/margins": 0.6434706449508667,
	"rewards/rejected": -1.8748672008514404,
	"step": 300
	},
	{
	"epoch": 0.63,
	"eval_logits/chosen": -2.4030282497406006,
	"eval_logits/rejected": -2.3836517333984375,
	"eval_logps/chosen": -377.3980712890625,
	"eval_logps/rejected": -449.78228759765625,
	"eval_loss": 0.10235561430454254,
	"eval_rewards/accuracies": 0.75390625,
	"eval_rewards/chosen": -1.2035841941833496,
	"eval_rewards/margins": 0.7207058072090149,
	"eval_rewards/rejected": -1.9242901802062988,
	"eval_runtime": 53.5723,
	"eval_samples_per_second": 37.333,
	"eval_steps_per_second": 0.597,
	"step": 300
	},
	{
	"epoch": 0.65,
	"learning_rate": 1.6583128063291573e-07,
	"logits/chosen": -2.3959908485412598,
	"logits/rejected": -2.366027593612671,
	"logps/chosen": -389.87841796875,
	"logps/rejected": -428.79150390625,
	"loss": 0.0967,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -1.2791574001312256,
	"rewards/margins": 0.5353385806083679,
	"rewards/rejected": -1.8144958019256592,
	"step": 310
	},
	{
	"epoch": 0.67,
	"learning_rate": 1.488723393865766e-07,
	"logits/chosen": -2.315176010131836,
	"logits/rejected": -2.303180694580078,
	"logps/chosen": -419.81304931640625,
	"logps/rejected": -451.9205627441406,
	"loss": 0.0913,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -1.3704838752746582,
	"rewards/margins": 0.4932515621185303,
	"rewards/rejected": -1.8637354373931885,
	"step": 320
	},
	{
	"epoch": 0.69,
	"learning_rate": 1.3245295796480788e-07,
	"logits/chosen": -2.3155629634857178,
	"logits/rejected": -2.306206226348877,
	"logps/chosen": -373.34173583984375,
	"logps/rejected": -451.43304443359375,
	"loss": 0.094,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -1.2377197742462158,
	"rewards/margins": 0.7202552556991577,
	"rewards/rejected": -1.957975149154663,
	"step": 330
	},
	{
	"epoch": 0.71,
	"learning_rate": 1.1666074087171627e-07,
	"logits/chosen": -2.3178515434265137,
	"logits/rejected": -2.317112684249878,
	"logps/chosen": -421.288330078125,
	"logps/rejected": -464.2798767089844,
	"loss": 0.1012,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -1.3072739839553833,
	"rewards/margins": 0.6341418027877808,
	"rewards/rejected": -1.941415786743164,
	"step": 340
	},
	{
	"epoch": 0.73,
	"learning_rate": 1.0157994641835734e-07,
	"logits/chosen": -2.352154016494751,
	"logits/rejected": -2.310459852218628,
	"logps/chosen": -371.04180908203125,
	"logps/rejected": -418.411376953125,
	"loss": 0.0964,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -1.2016589641571045,
	"rewards/margins": 0.6332089900970459,
	"rewards/rejected": -1.8348678350448608,
	"step": 350
	},
	{
	"epoch": 0.75,
	"learning_rate": 8.729103716819111e-08,
	"logits/chosen": -2.3340022563934326,
	"logits/rejected": -2.2888753414154053,
	"logps/chosen": -399.73870849609375,
	"logps/rejected": -433.62939453125,
	"loss": 0.103,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -1.3542587757110596,
	"rewards/margins": 0.6527735590934753,
	"rewards/rejected": -2.0070323944091797,
	"step": 360
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.387025063449081e-08,
	"logits/chosen": -2.305725574493408,
	"logits/rejected": -2.2590928077697754,
	"logps/chosen": -424.70269775390625,
	"logps/rejected": -478.83160400390625,
	"loss": 0.0832,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.3823884725570679,
	"rewards/margins": 0.7607783079147339,
	"rewards/rejected": -2.143167018890381,
	"step": 370
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.138919252022435e-08,
	"logits/chosen": -2.3276476860046387,
	"logits/rejected": -2.3130292892456055,
	"logps/chosen": -431.13568115234375,
	"logps/rejected": -477.88824462890625,
	"loss": 0.0903,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -1.4548090696334839,
	"rewards/margins": 0.671941876411438,
	"rewards/rejected": -2.126750946044922,
	"step": 380
	},
	{
	"epoch": 0.82,
	"learning_rate": 4.991445467064689e-08,
	"logits/chosen": -2.2263472080230713,
	"logits/rejected": -2.1942696571350098,
	"logps/chosen": -418.37335205078125,
	"logps/rejected": -485.0545349121094,
	"loss": 0.0883,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.488586187362671,
	"rewards/margins": 0.7860161662101746,
	"rewards/rejected": -2.2746024131774902,
	"step": 390
	},
	{
	"epoch": 0.84,
	"learning_rate": 3.9507259776993954e-08,
	"logits/chosen": -2.319228410720825,
	"logits/rejected": -2.2877087593078613,
	"logps/chosen": -417.96875,
	"logps/rejected": -461.0101623535156,
	"loss": 0.0811,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -1.4231641292572021,
	"rewards/margins": 0.647831916809082,
	"rewards/rejected": -2.0709962844848633,
	"step": 400
	},
	{
	"epoch": 0.84,
	"eval_logits/chosen": -2.3254384994506836,
	"eval_logits/rejected": -2.301893472671509,
	"eval_logps/chosen": -393.03472900390625,
	"eval_logps/rejected": -475.715087890625,
	"eval_loss": 0.09447792172431946,
	"eval_rewards/accuracies": 0.765625,
	"eval_rewards/chosen": -1.3599507808685303,
	"eval_rewards/margins": 0.8236675262451172,
	"eval_rewards/rejected": -2.1836180686950684,
	"eval_runtime": 53.5742,
	"eval_samples_per_second": 37.331,
	"eval_steps_per_second": 0.597,
	"step": 400
	},
	{
	"epoch": 0.86,
	"learning_rate": 3.022313472693447e-08,
	"logits/chosen": -2.3134891986846924,
	"logits/rejected": -2.2576441764831543,
	"logps/chosen": -405.07867431640625,
	"logps/rejected": -426.08770751953125,
	"loss": 0.088,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -1.304164171218872,
	"rewards/margins": 0.7416768074035645,
	"rewards/rejected": -2.0458409786224365,
	"step": 410
	},
	{
	"epoch": 0.88,
	"learning_rate": 2.2111614344599684e-08,
	"logits/chosen": -2.3239588737487793,
	"logits/rejected": -2.2752654552459717,
	"logps/chosen": -434.28118896484375,
	"logps/rejected": -482.84234619140625,
	"loss": 0.0896,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -1.4340513944625854,
	"rewards/margins": 0.8941879272460938,
	"rewards/rejected": -2.3282394409179688,
	"step": 420
	},
	{
	"epoch": 0.9,
	"learning_rate": 1.521597710086439e-08,
	"logits/chosen": -2.278296947479248,
	"logits/rejected": -2.2763679027557373,
	"logps/chosen": -423.744384765625,
	"logps/rejected": -485.7794494628906,
	"loss": 0.0868,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -1.4879920482635498,
	"rewards/margins": 0.6670708656311035,
	"rewards/rejected": -2.1550629138946533,
	"step": 430
	},
	{
	"epoch": 0.92,
	"learning_rate": 9.57301420397924e-09,
	"logits/chosen": -2.26120924949646,
	"logits/rejected": -2.2485973834991455,
	"logps/chosen": -404.76959228515625,
	"logps/rejected": -461.03448486328125,
	"loss": 0.0892,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -1.4389055967330933,
	"rewards/margins": 0.6930050253868103,
	"rewards/rejected": -2.131910800933838,
	"step": 440
	},
	{
	"epoch": 0.94,
	"learning_rate": 5.212833302556258e-09,
	"logits/chosen": -2.2681469917297363,
	"logits/rejected": -2.275200366973877,
	"logps/chosen": -404.1940612792969,
	"logps/rejected": -463.80401611328125,
	"loss": 0.0902,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -1.5075231790542603,
	"rewards/margins": 0.6551094055175781,
	"rewards/rejected": -2.162632703781128,
	"step": 450
	},
	{
	"epoch": 0.96,
	"learning_rate": 2.158697848236607e-09,
	"logits/chosen": -2.2567198276519775,
	"logits/rejected": -2.215657949447632,
	"logps/chosen": -404.21527099609375,
	"logps/rejected": -441.24945068359375,
	"loss": 0.0867,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -1.5105773210525513,
	"rewards/margins": 0.5308315753936768,
	"rewards/rejected": -2.0414090156555176,
	"step": 460
	},
	{
	"epoch": 0.98,
	"learning_rate": 4.269029751107489e-10,
	"logits/chosen": -2.2435102462768555,
	"logits/rejected": -2.2021100521087646,
	"logps/chosen": -399.60418701171875,
	"logps/rejected": -474.943359375,
	"loss": 0.0902,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -1.4095227718353271,
	"rewards/margins": 0.8036805391311646,
	"rewards/rejected": -2.213203191757202,
	"step": 470
	},
	{
	"epoch": 1.0,
	"step": 478,
	"total_flos": 0.0,
	"train_loss": 0.13007899894375183,
	"train_runtime": 3956.3918,
	"train_samples_per_second": 15.452,
	"train_steps_per_second": 0.121
	}
	],
	"logging_steps": 10,
	"max_steps": 478,
	"num_train_epochs": 1,
	"save_steps": 1000,
	"total_flos": 0.0,
	"trial_name": null,
	"trial_params": null
	}