Model save

a773699 verified 4 months ago

28.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9988571428571429,
	"eval_steps": 50,
	"global_step": 437,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.022857142857142857,
	"grad_norm": 6.795239341624469,
	"learning_rate": 1.1363636363636363e-07,
	"logits/chosen": -2.700852632522583,
	"logits/rejected": -2.6250014305114746,
	"logps/chosen": -301.27313232421875,
	"logps/rejected": -281.78619384765625,
	"loss": 0.6931,
	"rewards/accuracies": 0.4437499940395355,
	"rewards/chosen": 0.0001308169448748231,
	"rewards/margins": 0.0004958957433700562,
	"rewards/rejected": -0.00036507885670289397,
	"step": 10
	},
	{
	"epoch": 0.045714285714285714,
	"grad_norm": 5.31428372226332,
	"learning_rate": 2.2727272727272726e-07,
	"logits/chosen": -2.6415421962738037,
	"logits/rejected": -2.606222629547119,
	"logps/chosen": -278.8970642089844,
	"logps/rejected": -254.64749145507812,
	"loss": 0.6924,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": 0.0027411712799221277,
	"rewards/margins": 0.001525188097730279,
	"rewards/rejected": 0.001215982949361205,
	"step": 20
	},
	{
	"epoch": 0.06857142857142857,
	"grad_norm": 5.9664481153189435,
	"learning_rate": 3.4090909090909085e-07,
	"logits/chosen": -2.638169765472412,
	"logits/rejected": -2.617159843444824,
	"logps/chosen": -263.23223876953125,
	"logps/rejected": -263.40374755859375,
	"loss": 0.6883,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": 0.014508177526295185,
	"rewards/margins": 0.00861530750989914,
	"rewards/rejected": 0.0058928681537508965,
	"step": 30
	},
	{
	"epoch": 0.09142857142857143,
	"grad_norm": 6.667336557428276,
	"learning_rate": 4.545454545454545e-07,
	"logits/chosen": -2.648975372314453,
	"logits/rejected": -2.585244655609131,
	"logps/chosen": -290.2044372558594,
	"logps/rejected": -268.3276062011719,
	"loss": 0.6785,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": 0.037928324192762375,
	"rewards/margins": 0.044891245663166046,
	"rewards/rejected": -0.006962914951145649,
	"step": 40
	},
	{
	"epoch": 0.11428571428571428,
	"grad_norm": 9.813117329804816,
	"learning_rate": 4.997124959943201e-07,
	"logits/chosen": -2.6792047023773193,
	"logits/rejected": -2.5978188514709473,
	"logps/chosen": -293.65264892578125,
	"logps/rejected": -254.2649688720703,
	"loss": 0.6663,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": 0.026576850563287735,
	"rewards/margins": 0.10058300197124481,
	"rewards/rejected": -0.07400616258382797,
	"step": 50
	},
	{
	"epoch": 0.11428571428571428,
	"eval_logits/chosen": -2.541201591491699,
	"eval_logits/rejected": -2.4377598762512207,
	"eval_logps/chosen": -276.20166015625,
	"eval_logps/rejected": -235.61155700683594,
	"eval_loss": 0.6532372832298279,
	"eval_rewards/accuracies": 0.6896551847457886,
	"eval_rewards/chosen": -0.005977254826575518,
	"eval_rewards/margins": 0.15937723219394684,
	"eval_rewards/rejected": -0.16535447537899017,
	"eval_runtime": 91.1786,
	"eval_samples_per_second": 20.081,
	"eval_steps_per_second": 0.318,
	"step": 50
	},
	{
	"epoch": 0.13714285714285715,
	"grad_norm": 8.50170881260791,
	"learning_rate": 4.979579212164186e-07,
	"logits/chosen": -2.5797510147094727,
	"logits/rejected": -2.472832202911377,
	"logps/chosen": -293.24212646484375,
	"logps/rejected": -275.13885498046875,
	"loss": 0.646,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -0.12736138701438904,
	"rewards/margins": 0.1385059803724289,
	"rewards/rejected": -0.2658673822879791,
	"step": 60
	},
	{
	"epoch": 0.16,
	"grad_norm": 9.027696167666651,
	"learning_rate": 4.946196886175515e-07,
	"logits/chosen": -2.5882785320281982,
	"logits/rejected": -2.539330005645752,
	"logps/chosen": -293.43145751953125,
	"logps/rejected": -300.1482849121094,
	"loss": 0.6244,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -0.17653189599514008,
	"rewards/margins": 0.22868318855762482,
	"rewards/rejected": -0.4052151143550873,
	"step": 70
	},
	{
	"epoch": 0.18285714285714286,
	"grad_norm": 10.603734895101157,
	"learning_rate": 4.897191188239667e-07,
	"logits/chosen": -2.623680591583252,
	"logits/rejected": -2.5742952823638916,
	"logps/chosen": -285.3603820800781,
	"logps/rejected": -306.60211181640625,
	"loss": 0.6123,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.18331322073936462,
	"rewards/margins": 0.3296189308166504,
	"rewards/rejected": -0.5129320621490479,
	"step": 80
	},
	{
	"epoch": 0.2057142857142857,
	"grad_norm": 15.25024463895093,
	"learning_rate": 4.832875107981763e-07,
	"logits/chosen": -2.6875650882720947,
	"logits/rejected": -2.6345021724700928,
	"logps/chosen": -295.8832092285156,
	"logps/rejected": -313.13983154296875,
	"loss": 0.6191,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.19597890973091125,
	"rewards/margins": 0.37993985414505005,
	"rewards/rejected": -0.5759187340736389,
	"step": 90
	},
	{
	"epoch": 0.22857142857142856,
	"grad_norm": 12.34704700331818,
	"learning_rate": 4.753659419387223e-07,
	"logits/chosen": -2.679297685623169,
	"logits/rejected": -2.5944952964782715,
	"logps/chosen": -330.1031799316406,
	"logps/rejected": -318.5290832519531,
	"loss": 0.6051,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.43716782331466675,
	"rewards/margins": 0.4136085510253906,
	"rewards/rejected": -0.8507764935493469,
	"step": 100
	},
	{
	"epoch": 0.22857142857142856,
	"eval_logits/chosen": -2.493269920349121,
	"eval_logits/rejected": -2.3746213912963867,
	"eval_logps/chosen": -356.7496643066406,
	"eval_logps/rejected": -346.2107238769531,
	"eval_loss": 0.612766683101654,
	"eval_rewards/accuracies": 0.7112069129943848,
	"eval_rewards/chosen": -0.8114572167396545,
	"eval_rewards/margins": 0.4598887860774994,
	"eval_rewards/rejected": -1.2713459730148315,
	"eval_runtime": 90.1893,
	"eval_samples_per_second": 20.302,
	"eval_steps_per_second": 0.322,
	"step": 100
	},
	{
	"epoch": 0.25142857142857145,
	"grad_norm": 13.527645485553371,
	"learning_rate": 4.660050057270191e-07,
	"logits/chosen": -2.269178628921509,
	"logits/rejected": -2.168506622314453,
	"logps/chosen": -387.71820068359375,
	"logps/rejected": -411.88427734375,
	"loss": 0.5873,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": -0.7141460180282593,
	"rewards/margins": 0.4256005883216858,
	"rewards/rejected": -1.1397466659545898,
	"step": 110
	},
	{
	"epoch": 0.2742857142857143,
	"grad_norm": 17.046687026346753,
	"learning_rate": 4.5526448859687144e-07,
	"logits/chosen": -1.293348789215088,
	"logits/rejected": -0.927165687084198,
	"logps/chosen": -381.55316162109375,
	"logps/rejected": -354.0766906738281,
	"loss": 0.5755,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.7064869403839111,
	"rewards/margins": 0.5171381831169128,
	"rewards/rejected": -1.2236251831054688,
	"step": 120
	},
	{
	"epoch": 0.29714285714285715,
	"grad_norm": 19.945418074044913,
	"learning_rate": 4.432129880904388e-07,
	"logits/chosen": -0.14520399272441864,
	"logits/rejected": 0.31017133593559265,
	"logps/chosen": -394.09820556640625,
	"logps/rejected": -395.47674560546875,
	"loss": 0.5448,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": -0.8894233703613281,
	"rewards/margins": 0.5606414675712585,
	"rewards/rejected": -1.4500648975372314,
	"step": 130
	},
	{
	"epoch": 0.32,
	"grad_norm": 23.269894199893105,
	"learning_rate": 4.299274747394055e-07,
	"logits/chosen": 0.3922499716281891,
	"logits/rejected": 0.7626418471336365,
	"logps/chosen": -402.1969299316406,
	"logps/rejected": -436.99725341796875,
	"loss": 0.5611,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.8674923777580261,
	"rewards/margins": 0.783365786075592,
	"rewards/rejected": -1.6508581638336182,
	"step": 140
	},
	{
	"epoch": 0.34285714285714286,
	"grad_norm": 18.255646968547413,
	"learning_rate": 4.1549280046953653e-07,
	"logits/chosen": -0.056426752358675,
	"logits/rejected": 0.6437274813652039,
	"logps/chosen": -360.7496032714844,
	"logps/rejected": -432.40399169921875,
	"loss": 0.5375,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.7376368641853333,
	"rewards/margins": 0.8234134912490845,
	"rewards/rejected": -1.5610501766204834,
	"step": 150
	},
	{
	"epoch": 0.34285714285714286,
	"eval_logits/chosen": 0.20309801399707794,
	"eval_logits/rejected": 1.3727048635482788,
	"eval_logps/chosen": -358.7465515136719,
	"eval_logps/rejected": -413.1859436035156,
	"eval_loss": 0.5486596822738647,
	"eval_rewards/accuracies": 0.767241358757019,
	"eval_rewards/chosen": -0.8314265012741089,
	"eval_rewards/margins": 1.1096714735031128,
	"eval_rewards/rejected": -1.9410980939865112,
	"eval_runtime": 90.1892,
	"eval_samples_per_second": 20.302,
	"eval_steps_per_second": 0.322,
	"step": 150
	},
	{
	"epoch": 0.3657142857142857,
	"grad_norm": 20.04208599875873,
	"learning_rate": 4.000011566683401e-07,
	"logits/chosen": 0.4694085121154785,
	"logits/rejected": 1.3121615648269653,
	"logps/chosen": -412.69488525390625,
	"logps/rejected": -459.99188232421875,
	"loss": 0.548,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.1335456371307373,
	"rewards/margins": 0.9099456071853638,
	"rewards/rejected": -2.0434913635253906,
	"step": 160
	},
	{
	"epoch": 0.38857142857142857,
	"grad_norm": 22.516250506361718,
	"learning_rate": 3.8355148537705047e-07,
	"logits/chosen": 0.1457391083240509,
	"logits/rejected": 0.8692816495895386,
	"logps/chosen": -395.64947509765625,
	"logps/rejected": -417.6402282714844,
	"loss": 0.5469,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.9154456257820129,
	"rewards/margins": 0.6036463379859924,
	"rewards/rejected": -1.5190918445587158,
	"step": 170
	},
	{
	"epoch": 0.4114285714285714,
	"grad_norm": 20.567923807377685,
	"learning_rate": 3.662488473675315e-07,
	"logits/chosen": 0.6181103587150574,
	"logits/rejected": 1.7128187417984009,
	"logps/chosen": -436.68780517578125,
	"logps/rejected": -469.717041015625,
	"loss": 0.5551,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -1.065079927444458,
	"rewards/margins": 1.0325844287872314,
	"rewards/rejected": -2.0976643562316895,
	"step": 180
	},
	{
	"epoch": 0.4342857142857143,
	"grad_norm": 20.909674986872478,
	"learning_rate": 3.48203751140067e-07,
	"logits/chosen": 1.2501403093338013,
	"logits/rejected": 2.2078864574432373,
	"logps/chosen": -380.656982421875,
	"logps/rejected": -409.70556640625,
	"loss": 0.5412,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -1.0439938306808472,
	"rewards/margins": 0.7080799341201782,
	"rewards/rejected": -1.7520736455917358,
	"step": 190
	},
	{
	"epoch": 0.45714285714285713,
	"grad_norm": 21.67729434989596,
	"learning_rate": 3.2953144712759537e-07,
	"logits/chosen": 0.7689538598060608,
	"logits/rejected": 1.9063518047332764,
	"logps/chosen": -359.4909362792969,
	"logps/rejected": -411.184814453125,
	"loss": 0.5435,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.9114822149276733,
	"rewards/margins": 0.91156005859375,
	"rewards/rejected": -1.8230421543121338,
	"step": 200
	},
	{
	"epoch": 0.45714285714285713,
	"eval_logits/chosen": 1.3441277742385864,
	"eval_logits/rejected": 2.707573652267456,
	"eval_logps/chosen": -374.5489501953125,
	"eval_logps/rejected": -426.7857971191406,
	"eval_loss": 0.5358834266662598,
	"eval_rewards/accuracies": 0.7543103694915771,
	"eval_rewards/chosen": -0.9894503355026245,
	"eval_rewards/margins": 1.087646245956421,
	"eval_rewards/rejected": -2.077096462249756,
	"eval_runtime": 90.1648,
	"eval_samples_per_second": 20.307,
	"eval_steps_per_second": 0.322,
	"step": 200
	},
	{
	"epoch": 0.48,
	"grad_norm": 19.28945802551147,
	"learning_rate": 3.103511916141658e-07,
	"logits/chosen": 1.5224826335906982,
	"logits/rejected": 2.394577741622925,
	"logps/chosen": -385.7353210449219,
	"logps/rejected": -451.604248046875,
	"loss": 0.5372,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -1.2228174209594727,
	"rewards/margins": 0.8404253125190735,
	"rewards/rejected": -2.0632426738739014,
	"step": 210
	},
	{
	"epoch": 0.5028571428571429,
	"grad_norm": 24.47080032118637,
	"learning_rate": 2.9078548506882117e-07,
	"logits/chosen": 1.5350468158721924,
	"logits/rejected": 2.541968822479248,
	"logps/chosen": -425.51287841796875,
	"logps/rejected": -466.1084899902344,
	"loss": 0.5604,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.4044690132141113,
	"rewards/margins": 0.794781506061554,
	"rewards/rejected": -2.1992506980895996,
	"step": 220
	},
	{
	"epoch": 0.5257142857142857,
	"grad_norm": 20.61426463626924,
	"learning_rate": 2.709592897595191e-07,
	"logits/chosen": 1.438730001449585,
	"logits/rejected": 2.638312816619873,
	"logps/chosen": -390.794189453125,
	"logps/rejected": -433.10406494140625,
	"loss": 0.5311,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.0973504781723022,
	"rewards/margins": 0.8408235311508179,
	"rewards/rejected": -1.9381740093231201,
	"step": 230
	},
	{
	"epoch": 0.5485714285714286,
	"grad_norm": 31.905445593128672,
	"learning_rate": 2.509992316440332e-07,
	"logits/chosen": 1.2066385746002197,
	"logits/rejected": 2.3449177742004395,
	"logps/chosen": -413.14825439453125,
	"logps/rejected": -506.625,
	"loss": 0.5256,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -1.1443836688995361,
	"rewards/margins": 1.2076470851898193,
	"rewards/rejected": -2.3520307540893555,
	"step": 240
	},
	{
	"epoch": 0.5714285714285714,
	"grad_norm": 18.97837160736367,
	"learning_rate": 2.3103279163519918e-07,
	"logits/chosen": 0.9885716438293457,
	"logits/rejected": 1.7852414846420288,
	"logps/chosen": -384.52496337890625,
	"logps/rejected": -472.253662109375,
	"loss": 0.5433,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -1.0389870405197144,
	"rewards/margins": 0.9815452694892883,
	"rewards/rejected": -2.0205321311950684,
	"step": 250
	},
	{
	"epoch": 0.5714285714285714,
	"eval_logits/chosen": 0.858768880367279,
	"eval_logits/rejected": 2.412114381790161,
	"eval_logps/chosen": -365.6370544433594,
	"eval_logps/rejected": -425.7062683105469,
	"eval_loss": 0.528998613357544,
	"eval_rewards/accuracies": 0.7629310488700867,
	"eval_rewards/chosen": -0.9003310203552246,
	"eval_rewards/margins": 1.1659703254699707,
	"eval_rewards/rejected": -2.0663013458251953,
	"eval_runtime": 90.3653,
	"eval_samples_per_second": 20.262,
	"eval_steps_per_second": 0.321,
	"step": 250
	},
	{
	"epoch": 0.5942857142857143,
	"grad_norm": 21.94464499251825,
	"learning_rate": 2.1118749140573358e-07,
	"logits/chosen": 1.5066580772399902,
	"logits/rejected": 2.079137086868286,
	"logps/chosen": -411.3843688964844,
	"logps/rejected": -482.978515625,
	"loss": 0.5408,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.3159770965576172,
	"rewards/margins": 0.7803784608840942,
	"rewards/rejected": -2.096355438232422,
	"step": 260
	},
	{
	"epoch": 0.6171428571428571,
	"grad_norm": 23.287724561115347,
	"learning_rate": 1.9159007893272703e-07,
	"logits/chosen": 1.869363784790039,
	"logits/rejected": 3.169628620147705,
	"logps/chosen": -400.696533203125,
	"logps/rejected": -456.28155517578125,
	"loss": 0.517,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -1.2817071676254272,
	"rewards/margins": 0.9760338664054871,
	"rewards/rejected": -2.2577412128448486,
	"step": 270
	},
	{
	"epoch": 0.64,
	"grad_norm": 26.1145325639797,
	"learning_rate": 1.7236571898357766e-07,
	"logits/chosen": 2.085681438446045,
	"logits/rejected": 2.909884214401245,
	"logps/chosen": -402.3949890136719,
	"logps/rejected": -493.7689514160156,
	"loss": 0.5287,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.2935690879821777,
	"rewards/margins": 1.0130523443222046,
	"rewards/rejected": -2.3066213130950928,
	"step": 280
	},
	{
	"epoch": 0.6628571428571428,
	"grad_norm": 28.3817297395316,
	"learning_rate": 1.5363719371356882e-07,
	"logits/chosen": 1.904044508934021,
	"logits/rejected": 2.7162575721740723,
	"logps/chosen": -424.409912109375,
	"logps/rejected": -482.04913330078125,
	"loss": 0.5285,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -1.2350399494171143,
	"rewards/margins": 0.9299663305282593,
	"rewards/rejected": -2.165006399154663,
	"step": 290
	},
	{
	"epoch": 0.6857142857142857,
	"grad_norm": 17.85129410356221,
	"learning_rate": 1.3552411848071565e-07,
	"logits/chosen": 1.697782278060913,
	"logits/rejected": 3.180041551589966,
	"logps/chosen": -419.85028076171875,
	"logps/rejected": -478.419677734375,
	"loss": 0.5194,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -1.1794109344482422,
	"rewards/margins": 1.078364610671997,
	"rewards/rejected": -2.2577755451202393,
	"step": 300
	},
	{
	"epoch": 0.6857142857142857,
	"eval_logits/chosen": 1.7084869146347046,
	"eval_logits/rejected": 3.311720132827759,
	"eval_logps/chosen": -371.6744689941406,
	"eval_logps/rejected": -439.6499938964844,
	"eval_loss": 0.5213173031806946,
	"eval_rewards/accuracies": 0.7715517282485962,
	"eval_rewards/chosen": -0.9607052206993103,
	"eval_rewards/margins": 1.2450333833694458,
	"eval_rewards/rejected": -2.2057385444641113,
	"eval_runtime": 89.9422,
	"eval_samples_per_second": 20.358,
	"eval_steps_per_second": 0.322,
	"step": 300
	},
	{
	"epoch": 0.7085714285714285,
	"grad_norm": 22.76802438882901,
	"learning_rate": 1.1814217788631473e-07,
	"logits/chosen": 1.900792121887207,
	"logits/rejected": 2.7918269634246826,
	"logps/chosen": -372.843994140625,
	"logps/rejected": -442.9312438964844,
	"loss": 0.5285,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -1.1653985977172852,
	"rewards/margins": 0.8919604420661926,
	"rewards/rejected": -2.057358980178833,
	"step": 310
	},
	{
	"epoch": 0.7314285714285714,
	"grad_norm": 19.73975657149685,
	"learning_rate": 1.0160238692045331e-07,
	"logits/chosen": 2.1896469593048096,
	"logits/rejected": 2.8715972900390625,
	"logps/chosen": -380.424560546875,
	"logps/rejected": -454.2293395996094,
	"loss": 0.536,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -1.3614219427108765,
	"rewards/margins": 0.7709897756576538,
	"rewards/rejected": -2.132411479949951,
	"step": 320
	},
	{
	"epoch": 0.7542857142857143,
	"grad_norm": 29.56922781200817,
	"learning_rate": 8.601038193139438e-08,
	"logits/chosen": 1.6053155660629272,
	"logits/rejected": 2.692516565322876,
	"logps/chosen": -416.57342529296875,
	"logps/rejected": -465.4991760253906,
	"loss": 0.5313,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -1.1735525131225586,
	"rewards/margins": 1.003560185432434,
	"rewards/rejected": -2.177112579345703,
	"step": 330
	},
	{
	"epoch": 0.7771428571428571,
	"grad_norm": 18.098670935967576,
	"learning_rate": 7.146574594727572e-08,
	"logits/chosen": 2.0766067504882812,
	"logits/rejected": 2.8303616046905518,
	"logps/chosen": -387.4620361328125,
	"logps/rejected": -468.67718505859375,
	"loss": 0.5193,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -1.2151105403900146,
	"rewards/margins": 1.0514241456985474,
	"rewards/rejected": -2.2665345668792725,
	"step": 340
	},
	{
	"epoch": 0.8,
	"grad_norm": 20.794164513921476,
	"learning_rate": 5.8061372659157306e-08,
	"logits/chosen": 1.6319509744644165,
	"logits/rejected": 2.7972917556762695,
	"logps/chosen": -412.102783203125,
	"logps/rejected": -458.27191162109375,
	"loss": 0.5325,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -1.2239553928375244,
	"rewards/margins": 0.8157873153686523,
	"rewards/rejected": -2.0397427082061768,
	"step": 350
	},
	{
	"epoch": 0.8,
	"eval_logits/chosen": 2.0842368602752686,
	"eval_logits/rejected": 3.6707816123962402,
	"eval_logps/chosen": -389.46490478515625,
	"eval_logps/rejected": -456.7085266113281,
	"eval_loss": 0.5216463804244995,
	"eval_rewards/accuracies": 0.7629310488700867,
	"eval_rewards/chosen": -1.1386092901229858,
	"eval_rewards/margins": 1.237714409828186,
	"eval_rewards/rejected": -2.3763234615325928,
	"eval_runtime": 89.8616,
	"eval_samples_per_second": 20.376,
	"eval_steps_per_second": 0.323,
	"step": 350
	},
	{
	"epoch": 0.8228571428571428,
	"grad_norm": 18.184259604484346,
	"learning_rate": 4.5882873127531614e-08,
	"logits/chosen": 1.648209810256958,
	"logits/rejected": 2.9181623458862305,
	"logps/chosen": -407.1295166015625,
	"logps/rejected": -477.27447509765625,
	"loss": 0.5146,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -1.217245101928711,
	"rewards/margins": 1.044634222984314,
	"rewards/rejected": -2.2618794441223145,
	"step": 360
	},
	{
	"epoch": 0.8457142857142858,
	"grad_norm": 19.108285818305696,
	"learning_rate": 3.500802900154412e-08,
	"logits/chosen": 1.801898717880249,
	"logits/rejected": 3.196338176727295,
	"logps/chosen": -383.25311279296875,
	"logps/rejected": -463.01727294921875,
	"loss": 0.5188,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -1.1219167709350586,
	"rewards/margins": 1.1241002082824707,
	"rewards/rejected": -2.2460172176361084,
	"step": 370
	},
	{
	"epoch": 0.8685714285714285,
	"grad_norm": 23.620382836684982,
	"learning_rate": 2.550629574310309e-08,
	"logits/chosen": 1.4818474054336548,
	"logits/rejected": 2.90739107131958,
	"logps/chosen": -453.0061950683594,
	"logps/rejected": -476.94830322265625,
	"loss": 0.5263,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.349498987197876,
	"rewards/margins": 0.8459898233413696,
	"rewards/rejected": -2.195488691329956,
	"step": 380
	},
	{
	"epoch": 0.8914285714285715,
	"grad_norm": 22.14239335519297,
	"learning_rate": 1.7438359028687983e-08,
	"logits/chosen": 1.8351167440414429,
	"logits/rejected": 2.6260292530059814,
	"logps/chosen": -425.75128173828125,
	"logps/rejected": -503.3841857910156,
	"loss": 0.5275,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -1.1437828540802002,
	"rewards/margins": 0.9423319697380066,
	"rewards/rejected": -2.0861151218414307,
	"step": 390
	},
	{
	"epoch": 0.9142857142857143,
	"grad_norm": 32.206706951444914,
	"learning_rate": 1.0855747162029361e-08,
	"logits/chosen": 2.132110357284546,
	"logits/rejected": 2.6392226219177246,
	"logps/chosen": -411.29962158203125,
	"logps/rejected": -477.0232849121094,
	"loss": 0.5483,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.3256638050079346,
	"rewards/margins": 0.7788330316543579,
	"rewards/rejected": -2.104496955871582,
	"step": 400
	},
	{
	"epoch": 0.9142857142857143,
	"eval_logits/chosen": 2.117452621459961,
	"eval_logits/rejected": 3.7050397396087646,
	"eval_logps/chosen": -386.83795166015625,
	"eval_logps/rejected": -455.0307312011719,
	"eval_loss": 0.520908772945404,
	"eval_rewards/accuracies": 0.767241358757019,
	"eval_rewards/chosen": -1.112339973449707,
	"eval_rewards/margins": 1.2472059726715088,
	"eval_rewards/rejected": -2.3595457077026367,
	"eval_runtime": 90.8703,
	"eval_samples_per_second": 20.15,
	"eval_steps_per_second": 0.319,
	"step": 400
	},
	{
	"epoch": 0.9371428571428572,
	"grad_norm": 21.9038704574243,
	"learning_rate": 5.8005019731033615e-09,
	"logits/chosen": 1.9021247625350952,
	"logits/rejected": 2.9709084033966064,
	"logps/chosen": -423.39990234375,
	"logps/rejected": -478.46929931640625,
	"loss": 0.5184,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -1.3521995544433594,
	"rewards/margins": 0.8351926803588867,
	"rewards/rejected": -2.187392234802246,
	"step": 410
	},
	{
	"epoch": 0.96,
	"grad_norm": 21.54473906200769,
	"learning_rate": 2.3049103053431886e-09,
	"logits/chosen": 1.8090896606445312,
	"logits/rejected": 3.297045946121216,
	"logps/chosen": -384.42333984375,
	"logps/rejected": -458.969482421875,
	"loss": 0.522,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -1.0167523622512817,
	"rewards/margins": 1.2330738306045532,
	"rewards/rejected": -2.249825954437256,
	"step": 420
	},
	{
	"epoch": 0.9828571428571429,
	"grad_norm": 22.41955699037185,
	"learning_rate": 3.9129780600541397e-10,
	"logits/chosen": 2.2351975440979004,
	"logits/rejected": 3.178173065185547,
	"logps/chosen": -401.39642333984375,
	"logps/rejected": -481.4127502441406,
	"loss": 0.5214,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -1.191645622253418,
	"rewards/margins": 0.9857856631278992,
	"rewards/rejected": -2.177431344985962,
	"step": 430
	},
	{
	"epoch": 0.9988571428571429,
	"step": 437,
	"total_flos": 0.0,
	"train_loss": 0.5630035629534339,
	"train_runtime": 11387.5716,
	"train_samples_per_second": 4.918,
	"train_steps_per_second": 0.038
	}
	],
	"logging_steps": 10,
	"max_steps": 437,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}