Training in progress, step 600, checkpoint

1aae851 verified 16 days ago

39.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.5156854318865493,
	"eval_steps": 50,
	"global_step": 600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.008594757198109154,
	"grad_norm": 0.05167795345187187,
	"learning_rate": 4.999451708687114e-06,
	"logits/chosen": 15.084823608398438,
	"logits/rejected": 15.218259811401367,
	"logps/chosen": -0.3124043345451355,
	"logps/rejected": -0.31854626536369324,
	"loss": 0.9405,
	"rewards/accuracies": 0.4375,
	"rewards/chosen": -0.46860653162002563,
	"rewards/margins": 0.009212849661707878,
	"rewards/rejected": -0.47781938314437866,
	"step": 10
	},
	{
	"epoch": 0.017189514396218308,
	"grad_norm": 0.06444549560546875,
	"learning_rate": 4.997807075247147e-06,
	"logits/chosen": 14.565855026245117,
	"logits/rejected": 14.914319038391113,
	"logps/chosen": -0.28220412135124207,
	"logps/rejected": -0.3605547249317169,
	"loss": 0.9294,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -0.4233061671257019,
	"rewards/margins": 0.11752591282129288,
	"rewards/rejected": -0.5408320426940918,
	"step": 20
	},
	{
	"epoch": 0.02578427159432746,
	"grad_norm": 0.059900399297475815,
	"learning_rate": 4.9950668210706795e-06,
	"logits/chosen": 14.878230094909668,
	"logits/rejected": 15.334558486938477,
	"logps/chosen": -0.2837519347667694,
	"logps/rejected": -0.320808470249176,
	"loss": 0.9338,
	"rewards/accuracies": 0.4625000059604645,
	"rewards/chosen": -0.4256278872489929,
	"rewards/margins": 0.05558476969599724,
	"rewards/rejected": -0.48121267557144165,
	"step": 30
	},
	{
	"epoch": 0.034379028792436615,
	"grad_norm": 0.05459418520331383,
	"learning_rate": 4.9912321481237616e-06,
	"logits/chosen": 14.800946235656738,
	"logits/rejected": 15.134121894836426,
	"logps/chosen": -0.2971518635749817,
	"logps/rejected": -0.3476788401603699,
	"loss": 0.9202,
	"rewards/accuracies": 0.4625000059604645,
	"rewards/chosen": -0.4457278251647949,
	"rewards/margins": 0.07579050213098526,
	"rewards/rejected": -0.521518349647522,
	"step": 40
	},
	{
	"epoch": 0.042973785990545764,
	"grad_norm": 0.05792691186070442,
	"learning_rate": 4.986304738420684e-06,
	"logits/chosen": 14.62980842590332,
	"logits/rejected": 14.848493576049805,
	"logps/chosen": -0.27511823177337646,
	"logps/rejected": -0.32557612657546997,
	"loss": 0.9213,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -0.4126773774623871,
	"rewards/margins": 0.07568677514791489,
	"rewards/rejected": -0.48836421966552734,
	"step": 50
	},
	{
	"epoch": 0.042973785990545764,
	"eval_logits/chosen": 14.195974349975586,
	"eval_logits/rejected": 15.046167373657227,
	"eval_logps/chosen": -0.27934810519218445,
	"eval_logps/rejected": -0.3643363118171692,
	"eval_loss": 0.9250189065933228,
	"eval_rewards/accuracies": 0.557894766330719,
	"eval_rewards/chosen": -0.4190221428871155,
	"eval_rewards/margins": 0.1274823397397995,
	"eval_rewards/rejected": -0.5465044379234314,
	"eval_runtime": 26.0506,
	"eval_samples_per_second": 28.905,
	"eval_steps_per_second": 3.647,
	"step": 50
	},
	{
	"epoch": 0.05156854318865492,
	"grad_norm": 0.08806851506233215,
	"learning_rate": 4.980286753286196e-06,
	"logits/chosen": 14.311370849609375,
	"logits/rejected": 15.19476318359375,
	"logps/chosen": -0.26153135299682617,
	"logps/rejected": -0.34108471870422363,
	"loss": 0.9255,
	"rewards/accuracies": 0.512499988079071,
	"rewards/chosen": -0.39229699969291687,
	"rewards/margins": 0.11933007091283798,
	"rewards/rejected": -0.5116270780563354,
	"step": 60
	},
	{
	"epoch": 0.060163300386764075,
	"grad_norm": 0.10536951571702957,
	"learning_rate": 4.973180832407471e-06,
	"logits/chosen": 14.646909713745117,
	"logits/rejected": 15.134190559387207,
	"logps/chosen": -0.2928832173347473,
	"logps/rejected": -0.37275972962379456,
	"loss": 0.9155,
	"rewards/accuracies": 0.512499988079071,
	"rewards/chosen": -0.4393247961997986,
	"rewards/margins": 0.11981481313705444,
	"rewards/rejected": -0.559139609336853,
	"step": 70
	},
	{
	"epoch": 0.06875805758487323,
	"grad_norm": 0.07452531903982162,
	"learning_rate": 4.964990092676263e-06,
	"logits/chosen": 14.383807182312012,
	"logits/rejected": 14.806958198547363,
	"logps/chosen": -0.2724239230155945,
	"logps/rejected": -0.33048146963119507,
	"loss": 0.9191,
	"rewards/accuracies": 0.48750001192092896,
	"rewards/chosen": -0.4086359143257141,
	"rewards/margins": 0.08708634227514267,
	"rewards/rejected": -0.495722234249115,
	"step": 80
	},
	{
	"epoch": 0.07735281478298238,
	"grad_norm": 0.06996195018291473,
	"learning_rate": 4.9557181268217225e-06,
	"logits/chosen": 14.557902336120605,
	"logits/rejected": 15.043550491333008,
	"logps/chosen": -0.3053165078163147,
	"logps/rejected": -0.36941051483154297,
	"loss": 0.9255,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -0.45797473192214966,
	"rewards/margins": 0.0961410254240036,
	"rewards/rejected": -0.5541157126426697,
	"step": 90
	},
	{
	"epoch": 0.08594757198109153,
	"grad_norm": 0.09053988754749298,
	"learning_rate": 4.9453690018345144e-06,
	"logits/chosen": 13.747509956359863,
	"logits/rejected": 14.678106307983398,
	"logps/chosen": -0.2453141212463379,
	"logps/rejected": -0.36430835723876953,
	"loss": 0.9022,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.36797118186950684,
	"rewards/margins": 0.17849135398864746,
	"rewards/rejected": -0.5464625358581543,
	"step": 100
	},
	{
	"epoch": 0.08594757198109153,
	"eval_logits/chosen": 14.017444610595703,
	"eval_logits/rejected": 14.885564804077148,
	"eval_logps/chosen": -0.2685285806655884,
	"eval_logps/rejected": -0.3654690384864807,
	"eval_loss": 0.9166209697723389,
	"eval_rewards/accuracies": 0.557894766330719,
	"eval_rewards/chosen": -0.4027928411960602,
	"eval_rewards/margins": 0.14541073143482208,
	"eval_rewards/rejected": -0.5482036471366882,
	"eval_runtime": 26.0431,
	"eval_samples_per_second": 28.914,
	"eval_steps_per_second": 3.648,
	"step": 100
	},
	{
	"epoch": 0.09454232917920069,
	"grad_norm": 0.07788874208927155,
	"learning_rate": 4.933947257182901e-06,
	"logits/chosen": 14.805160522460938,
	"logits/rejected": 14.767298698425293,
	"logps/chosen": -0.30586495995521545,
	"logps/rejected": -0.3159794211387634,
	"loss": 0.9128,
	"rewards/accuracies": 0.42500001192092896,
	"rewards/chosen": -0.45879751443862915,
	"rewards/margins": 0.015171671286225319,
	"rewards/rejected": -0.47396916151046753,
	"step": 110
	},
	{
	"epoch": 0.10313708637730984,
	"grad_norm": 0.07691823691129684,
	"learning_rate": 4.921457902821578e-06,
	"logits/chosen": 13.761972427368164,
	"logits/rejected": 14.64726448059082,
	"logps/chosen": -0.2784760296344757,
	"logps/rejected": -0.34076255559921265,
	"loss": 0.9179,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -0.41771402955055237,
	"rewards/margins": 0.09342982620000839,
	"rewards/rejected": -0.5111438632011414,
	"step": 120
	},
	{
	"epoch": 0.11173184357541899,
	"grad_norm": 0.08534488826990128,
	"learning_rate": 4.907906416994146e-06,
	"logits/chosen": 13.837780952453613,
	"logits/rejected": 14.767657279968262,
	"logps/chosen": -0.26367664337158203,
	"logps/rejected": -0.3845904469490051,
	"loss": 0.8978,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -0.39551490545272827,
	"rewards/margins": 0.18137072026729584,
	"rewards/rejected": -0.5768855810165405,
	"step": 130
	},
	{
	"epoch": 0.12032660077352815,
	"grad_norm": 0.08117899298667908,
	"learning_rate": 4.893298743830168e-06,
	"logits/chosen": 13.270025253295898,
	"logits/rejected": 14.128207206726074,
	"logps/chosen": -0.24728116393089294,
	"logps/rejected": -0.3510771095752716,
	"loss": 0.9117,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": -0.370921790599823,
	"rewards/margins": 0.1556939035654068,
	"rewards/rejected": -0.5266156196594238,
	"step": 140
	},
	{
	"epoch": 0.1289213579716373,
	"grad_norm": 0.1263500601053238,
	"learning_rate": 4.8776412907378845e-06,
	"logits/chosen": 13.525009155273438,
	"logits/rejected": 14.163309097290039,
	"logps/chosen": -0.24874648451805115,
	"logps/rejected": -0.38132259249687195,
	"loss": 0.9007,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.3731197714805603,
	"rewards/margins": 0.1988641768693924,
	"rewards/rejected": -0.5719839334487915,
	"step": 150
	},
	{
	"epoch": 0.1289213579716373,
	"eval_logits/chosen": 12.438652992248535,
	"eval_logits/rejected": 13.519843101501465,
	"eval_logps/chosen": -0.2689361274242401,
	"eval_logps/rejected": -0.3897271454334259,
	"eval_loss": 0.8991575241088867,
	"eval_rewards/accuracies": 0.5894736647605896,
	"eval_rewards/chosen": -0.40340420603752136,
	"eval_rewards/margins": 0.1811865121126175,
	"eval_rewards/rejected": -0.5845907330513,
	"eval_runtime": 26.0482,
	"eval_samples_per_second": 28.908,
	"eval_steps_per_second": 3.647,
	"step": 150
	},
	{
	"epoch": 0.13751611516974646,
	"grad_norm": 0.11390316486358643,
	"learning_rate": 4.860940925593703e-06,
	"logits/chosen": 12.494891166687012,
	"logits/rejected": 13.346384048461914,
	"logps/chosen": -0.26858460903167725,
	"logps/rejected": -0.4170496463775635,
	"loss": 0.8854,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": -0.4028768539428711,
	"rewards/margins": 0.22269758582115173,
	"rewards/rejected": -0.6255744695663452,
	"step": 160
	},
	{
	"epoch": 0.1461108723678556,
	"grad_norm": 0.14250700175762177,
	"learning_rate": 4.84320497372973e-06,
	"logits/chosen": 11.637483596801758,
	"logits/rejected": 12.72177505493164,
	"logps/chosen": -0.2967775762081146,
	"logps/rejected": -0.440357506275177,
	"loss": 0.8884,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.4451664090156555,
	"rewards/margins": 0.21536986529827118,
	"rewards/rejected": -0.6605362892150879,
	"step": 170
	},
	{
	"epoch": 0.15470562956596476,
	"grad_norm": 0.174351766705513,
	"learning_rate": 4.824441214720629e-06,
	"logits/chosen": 11.577589988708496,
	"logits/rejected": 12.179681777954102,
	"logps/chosen": -0.29397666454315186,
	"logps/rejected": -0.4009665548801422,
	"loss": 0.8756,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": -0.44096502661705017,
	"rewards/margins": 0.16048480570316315,
	"rewards/rejected": -0.6014498472213745,
	"step": 180
	},
	{
	"epoch": 0.1633003867640739,
	"grad_norm": 0.22877676784992218,
	"learning_rate": 4.804657878971252e-06,
	"logits/chosen": 9.352752685546875,
	"logits/rejected": 10.27645206451416,
	"logps/chosen": -0.30452457070350647,
	"logps/rejected": -0.4765443205833435,
	"loss": 0.8781,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -0.4567868113517761,
	"rewards/margins": 0.25802966952323914,
	"rewards/rejected": -0.7148164510726929,
	"step": 190
	},
	{
	"epoch": 0.17189514396218306,
	"grad_norm": 0.2517675459384918,
	"learning_rate": 4.783863644106502e-06,
	"logits/chosen": 8.136419296264648,
	"logits/rejected": 9.26432991027832,
	"logps/chosen": -0.3416380286216736,
	"logps/rejected": -0.4680122435092926,
	"loss": 0.8531,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -0.5124570727348328,
	"rewards/margins": 0.18956127762794495,
	"rewards/rejected": -0.7020183801651001,
	"step": 200
	},
	{
	"epoch": 0.17189514396218306,
	"eval_logits/chosen": 7.26609992980957,
	"eval_logits/rejected": 8.391904830932617,
	"eval_logps/chosen": -0.31862083077430725,
	"eval_logps/rejected": -0.5189473032951355,
	"eval_loss": 0.8484573364257812,
	"eval_rewards/accuracies": 0.6315789222717285,
	"eval_rewards/chosen": -0.47793126106262207,
	"eval_rewards/margins": 0.30048972368240356,
	"eval_rewards/rejected": -0.7784210443496704,
	"eval_runtime": 26.0496,
	"eval_samples_per_second": 28.906,
	"eval_steps_per_second": 3.647,
	"step": 200
	},
	{
	"epoch": 0.18048990116029223,
	"grad_norm": 0.28971683979034424,
	"learning_rate": 4.762067631165049e-06,
	"logits/chosen": 7.321592807769775,
	"logits/rejected": 7.871228218078613,
	"logps/chosen": -0.3311695158481598,
	"logps/rejected": -0.4879254400730133,
	"loss": 0.8211,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -0.4967542588710785,
	"rewards/margins": 0.23513388633728027,
	"rewards/rejected": -0.7318881750106812,
	"step": 210
	},
	{
	"epoch": 0.18908465835840138,
	"grad_norm": 0.568050742149353,
	"learning_rate": 4.7392794005985324e-06,
	"logits/chosen": 5.077876091003418,
	"logits/rejected": 5.706583499908447,
	"logps/chosen": -0.3127230405807495,
	"logps/rejected": -0.5744297504425049,
	"loss": 0.8331,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.46908459067344666,
	"rewards/margins": 0.39256006479263306,
	"rewards/rejected": -0.8616446256637573,
	"step": 220
	},
	{
	"epoch": 0.19767941555651053,
	"grad_norm": 0.32453760504722595,
	"learning_rate": 4.715508948078037e-06,
	"logits/chosen": 4.265925407409668,
	"logits/rejected": 4.2006964683532715,
	"logps/chosen": -0.4032830595970154,
	"logps/rejected": -0.6459742784500122,
	"loss": 0.7986,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.6049246191978455,
	"rewards/margins": 0.3640367388725281,
	"rewards/rejected": -0.9689614176750183,
	"step": 230
	},
	{
	"epoch": 0.20627417275461968,
	"grad_norm": 0.448809951543808,
	"learning_rate": 4.690766700109659e-06,
	"logits/chosen": 3.3534884452819824,
	"logits/rejected": 3.4250903129577637,
	"logps/chosen": -0.3817242383956909,
	"logps/rejected": -0.7190496921539307,
	"loss": 0.7708,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.5725863575935364,
	"rewards/margins": 0.5059882402420044,
	"rewards/rejected": -1.078574538230896,
	"step": 240
	},
	{
	"epoch": 0.21486892995272883,
	"grad_norm": 0.4277574419975281,
	"learning_rate": 4.665063509461098e-06,
	"logits/chosen": 3.151397228240967,
	"logits/rejected": 2.8183228969573975,
	"logps/chosen": -0.44173598289489746,
	"logps/rejected": -0.8323748707771301,
	"loss": 0.7722,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.6626039743423462,
	"rewards/margins": 0.5859583616256714,
	"rewards/rejected": -1.248562216758728,
	"step": 250
	},
	{
	"epoch": 0.21486892995272883,
	"eval_logits/chosen": 2.520007848739624,
	"eval_logits/rejected": 1.9197090864181519,
	"eval_logps/chosen": -0.4703753888607025,
	"eval_logps/rejected": -0.90553879737854,
	"eval_loss": 0.7410055994987488,
	"eval_rewards/accuracies": 0.6631578803062439,
	"eval_rewards/chosen": -0.7055630087852478,
	"eval_rewards/margins": 0.6527453064918518,
	"eval_rewards/rejected": -1.3583083152770996,
	"eval_runtime": 26.0441,
	"eval_samples_per_second": 28.912,
	"eval_steps_per_second": 3.648,
	"step": 250
	},
	{
	"epoch": 0.22346368715083798,
	"grad_norm": 0.5626497268676758,
	"learning_rate": 4.638410650401267e-06,
	"logits/chosen": 1.2351257801055908,
	"logits/rejected": 0.5925868153572083,
	"logps/chosen": -0.46581563353538513,
	"logps/rejected": -0.9673674702644348,
	"loss": 0.6933,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.6987233757972717,
	"rewards/margins": 0.7523276209831238,
	"rewards/rejected": -1.451051115989685,
	"step": 260
	},
	{
	"epoch": 0.23205844434894715,
	"grad_norm": 0.7433231472969055,
	"learning_rate": 4.610819813755038e-06,
	"logits/chosen": 3.1690659523010254,
	"logits/rejected": 2.0423803329467773,
	"logps/chosen": -0.506645679473877,
	"logps/rejected": -1.0180162191390991,
	"loss": 0.7265,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.7599684596061707,
	"rewards/margins": 0.767055869102478,
	"rewards/rejected": -1.527024507522583,
	"step": 270
	},
	{
	"epoch": 0.2406532015470563,
	"grad_norm": 1.4220589399337769,
	"learning_rate": 4.582303101775249e-06,
	"logits/chosen": 2.8173985481262207,
	"logits/rejected": 1.5537467002868652,
	"logps/chosen": -0.5869659185409546,
	"logps/rejected": -1.1085975170135498,
	"loss": 0.6725,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.8804486989974976,
	"rewards/margins": 0.7824474573135376,
	"rewards/rejected": -1.6628963947296143,
	"step": 280
	},
	{
	"epoch": 0.24924795874516545,
	"grad_norm": 0.6397098898887634,
	"learning_rate": 4.55287302283426e-06,
	"logits/chosen": 2.734229564666748,
	"logits/rejected": 1.9948323965072632,
	"logps/chosen": -0.6540845036506653,
	"logps/rejected": -1.451608419418335,
	"loss": 0.571,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -0.9811266660690308,
	"rewards/margins": 1.1962860822677612,
	"rewards/rejected": -2.177412748336792,
	"step": 290
	},
	{
	"epoch": 0.2578427159432746,
	"grad_norm": 0.4591177701950073,
	"learning_rate": 4.522542485937369e-06,
	"logits/chosen": 2.2491040229797363,
	"logits/rejected": 1.345014214515686,
	"logps/chosen": -0.6877793073654175,
	"logps/rejected": -1.6054528951644897,
	"loss": 0.5782,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -1.0316689014434814,
	"rewards/margins": 1.3765103816986084,
	"rewards/rejected": -2.408179521560669,
	"step": 300
	},
	{
	"epoch": 0.2578427159432746,
	"eval_logits/chosen": 1.661840796470642,
	"eval_logits/rejected": 0.6246702671051025,
	"eval_logps/chosen": -0.7322248816490173,
	"eval_logps/rejected": -2.272771120071411,
	"eval_loss": 0.563686728477478,
	"eval_rewards/accuracies": 0.7157894968986511,
	"eval_rewards/chosen": -1.0983372926712036,
	"eval_rewards/margins": 2.310819387435913,
	"eval_rewards/rejected": -3.409156560897827,
	"eval_runtime": 26.0455,
	"eval_samples_per_second": 28.911,
	"eval_steps_per_second": 3.647,
	"step": 300
	},
	{
	"epoch": 0.2664374731413838,
	"grad_norm": 0.786809504032135,
	"learning_rate": 4.491324795060491e-06,
	"logits/chosen": 1.3445788621902466,
	"logits/rejected": 0.4989510178565979,
	"logps/chosen": -0.7276264429092407,
	"logps/rejected": -2.3235878944396973,
	"loss": 0.5253,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.0914397239685059,
	"rewards/margins": 2.393942356109619,
	"rewards/rejected": -3.485382080078125,
	"step": 310
	},
	{
	"epoch": 0.2750322303394929,
	"grad_norm": 0.3913320004940033,
	"learning_rate": 4.4592336433146e-06,
	"logits/chosen": 2.61965012550354,
	"logits/rejected": 1.9477211236953735,
	"logps/chosen": -0.7146936655044556,
	"logps/rejected": -1.9647115468978882,
	"loss": 0.5294,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.0720404386520386,
	"rewards/margins": 1.8750267028808594,
	"rewards/rejected": -2.9470672607421875,
	"step": 320
	},
	{
	"epoch": 0.28362698753760207,
	"grad_norm": 0.4867005944252014,
	"learning_rate": 4.426283106939474e-06,
	"logits/chosen": 2.500439167022705,
	"logits/rejected": 1.6413562297821045,
	"logps/chosen": -0.8710287809371948,
	"logps/rejected": -2.36894154548645,
	"loss": 0.548,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -1.306543231010437,
	"rewards/margins": 2.246868848800659,
	"rewards/rejected": -3.5534119606018066,
	"step": 330
	},
	{
	"epoch": 0.2922217447357112,
	"grad_norm": 0.8009849786758423,
	"learning_rate": 4.3924876391293915e-06,
	"logits/chosen": 1.3847177028656006,
	"logits/rejected": 0.8994542360305786,
	"logps/chosen": -0.8447234034538269,
	"logps/rejected": -2.800283908843994,
	"loss": 0.4797,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -1.2670851945877075,
	"rewards/margins": 2.9333412647247314,
	"rewards/rejected": -4.2004265785217285,
	"step": 340
	},
	{
	"epoch": 0.30081650193382037,
	"grad_norm": 2.0202796459198,
	"learning_rate": 4.357862063693486e-06,
	"logits/chosen": 2.3197357654571533,
	"logits/rejected": 1.37326180934906,
	"logps/chosen": -0.8590717315673828,
	"logps/rejected": -2.1532845497131348,
	"loss": 0.5126,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": -1.2886077165603638,
	"rewards/margins": 1.941319465637207,
	"rewards/rejected": -3.2299270629882812,
	"step": 350
	},
	{
	"epoch": 0.30081650193382037,
	"eval_logits/chosen": 2.0864102840423584,
	"eval_logits/rejected": 1.2036340236663818,
	"eval_logps/chosen": -0.9554746150970459,
	"eval_logps/rejected": -3.0601954460144043,
	"eval_loss": 0.5108997821807861,
	"eval_rewards/accuracies": 0.7368420958518982,
	"eval_rewards/chosen": -1.4332119226455688,
	"eval_rewards/margins": 3.15708065032959,
	"eval_rewards/rejected": -4.590292930603027,
	"eval_runtime": 26.0503,
	"eval_samples_per_second": 28.906,
	"eval_steps_per_second": 3.647,
	"step": 350
	},
	{
	"epoch": 0.3094112591319295,
	"grad_norm": 1.0668681859970093,
	"learning_rate": 4.322421568553529e-06,
	"logits/chosen": 1.6770871877670288,
	"logits/rejected": 1.073407530784607,
	"logps/chosen": -1.1393296718597412,
	"logps/rejected": -2.886169910430908,
	"loss": 0.5031,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -1.7089945077896118,
	"rewards/margins": 2.620260238647461,
	"rewards/rejected": -4.329255104064941,
	"step": 360
	},
	{
	"epoch": 0.31800601633003867,
	"grad_norm": 0.5015287399291992,
	"learning_rate": 4.286181699082008e-06,
	"logits/chosen": 2.156587600708008,
	"logits/rejected": 1.371209979057312,
	"logps/chosen": -0.9851818084716797,
	"logps/rejected": -3.2286324501037598,
	"loss": 0.4662,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -1.47777259349823,
	"rewards/margins": 3.3651764392852783,
	"rewards/rejected": -4.842948913574219,
	"step": 370
	},
	{
	"epoch": 0.3266007735281478,
	"grad_norm": 0.9893808960914612,
	"learning_rate": 4.249158351283414e-06,
	"logits/chosen": 2.6184191703796387,
	"logits/rejected": 2.212998390197754,
	"logps/chosen": -0.9414733052253723,
	"logps/rejected": -2.940886974334717,
	"loss": 0.4829,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -1.4122098684310913,
	"rewards/margins": 2.9991202354431152,
	"rewards/rejected": -4.411330223083496,
	"step": 380
	},
	{
	"epoch": 0.33519553072625696,
	"grad_norm": 0.7588702440261841,
	"learning_rate": 4.211367764821722e-06,
	"logits/chosen": 3.257941484451294,
	"logits/rejected": 2.5362088680267334,
	"logps/chosen": -1.182255744934082,
	"logps/rejected": -2.8621151447296143,
	"loss": 0.4538,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -1.7733834981918335,
	"rewards/margins": 2.5197887420654297,
	"rewards/rejected": -4.293172359466553,
	"step": 390
	},
	{
	"epoch": 0.3437902879243661,
	"grad_norm": 0.6317985653877258,
	"learning_rate": 4.172826515897146e-06,
	"logits/chosen": 3.057791233062744,
	"logits/rejected": 2.4121367931365967,
	"logps/chosen": -1.0847463607788086,
	"logps/rejected": -3.3152599334716797,
	"loss": 0.4847,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -1.6271196603775024,
	"rewards/margins": 3.3457705974578857,
	"rewards/rejected": -4.9728899002075195,
	"step": 400
	},
	{
	"epoch": 0.3437902879243661,
	"eval_logits/chosen": 2.9584426879882812,
	"eval_logits/rejected": 2.292771577835083,
	"eval_logps/chosen": -1.202886939048767,
	"eval_logps/rejected": -3.6770312786102295,
	"eval_loss": 0.47303518652915955,
	"eval_rewards/accuracies": 0.7473683953285217,
	"eval_rewards/chosen": -1.8043304681777954,
	"eval_rewards/margins": 3.711216688156128,
	"eval_rewards/rejected": -5.515547275543213,
	"eval_runtime": 26.0247,
	"eval_samples_per_second": 28.934,
	"eval_steps_per_second": 3.65,
	"step": 400
	},
	{
	"epoch": 0.3523850451224753,
	"grad_norm": 1.0523916482925415,
	"learning_rate": 4.133551509975264e-06,
	"logits/chosen": 2.9360365867614746,
	"logits/rejected": 2.330521583557129,
	"logps/chosen": -1.3002166748046875,
	"logps/rejected": -3.2887542247772217,
	"loss": 0.4398,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.9503250122070312,
	"rewards/margins": 2.9828057289123535,
	"rewards/rejected": -4.933130741119385,
	"step": 410
	},
	{
	"epoch": 0.36097980232058446,
	"grad_norm": 0.6079875826835632,
	"learning_rate": 4.093559974371725e-06,
	"logits/chosen": 3.1500794887542725,
	"logits/rejected": 2.329282283782959,
	"logps/chosen": -1.23466157913208,
	"logps/rejected": -3.291548252105713,
	"loss": 0.4774,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -1.8519923686981201,
	"rewards/margins": 3.085329532623291,
	"rewards/rejected": -4.93732213973999,
	"step": 420
	},
	{
	"epoch": 0.3695745595186936,
	"grad_norm": 1.3175437450408936,
	"learning_rate": 4.052869450695776e-06,
	"logits/chosen": 3.4488296508789062,
	"logits/rejected": 2.6282899379730225,
	"logps/chosen": -1.380877137184143,
	"logps/rejected": -4.005017280578613,
	"loss": 0.4158,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -2.0713157653808594,
	"rewards/margins": 3.9362099170684814,
	"rewards/rejected": -6.007525444030762,
	"step": 430
	},
	{
	"epoch": 0.37816931671680276,
	"grad_norm": 3.7249863147735596,
	"learning_rate": 4.011497787155938e-06,
	"logits/chosen": 2.5173678398132324,
	"logits/rejected": 1.943926215171814,
	"logps/chosen": -1.7800304889678955,
	"logps/rejected": -4.422289848327637,
	"loss": 0.3916,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -2.6700453758239746,
	"rewards/margins": 3.9633898735046387,
	"rewards/rejected": -6.633435249328613,
	"step": 440
	},
	{
	"epoch": 0.3867640739149119,
	"grad_norm": 2.9776103496551514,
	"learning_rate": 3.969463130731183e-06,
	"logits/chosen": 3.2318034172058105,
	"logits/rejected": 2.5253517627716064,
	"logps/chosen": -2.309701442718506,
	"logps/rejected": -4.725776672363281,
	"loss": 0.368,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -3.464552640914917,
	"rewards/margins": 3.624112606048584,
	"rewards/rejected": -7.0886640548706055,
	"step": 450
	},
	{
	"epoch": 0.3867640739149119,
	"eval_logits/chosen": 2.397157907485962,
	"eval_logits/rejected": 2.0492196083068848,
	"eval_logps/chosen": -2.6244213581085205,
	"eval_logps/rejected": -5.247391700744629,
	"eval_loss": 0.3982011079788208,
	"eval_rewards/accuracies": 0.8842105269432068,
	"eval_rewards/chosen": -3.936631917953491,
	"eval_rewards/margins": 3.934455633163452,
	"eval_rewards/rejected": -7.87108850479126,
	"eval_runtime": 26.0501,
	"eval_samples_per_second": 28.906,
	"eval_steps_per_second": 3.647,
	"step": 450
	},
	{
	"epoch": 0.39535883111302106,
	"grad_norm": 2.3925623893737793,
	"learning_rate": 3.92678391921108e-06,
	"logits/chosen": 3.0329971313476562,
	"logits/rejected": 2.67683482170105,
	"logps/chosen": -2.4644994735717773,
	"logps/rejected": -4.755246162414551,
	"loss": 0.3584,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -3.696749210357666,
	"rewards/margins": 3.436119794845581,
	"rewards/rejected": -7.132868766784668,
	"step": 460
	},
	{
	"epoch": 0.4039535883111302,
	"grad_norm": 3.1981327533721924,
	"learning_rate": 3.88347887310836e-06,
	"logits/chosen": 2.219741106033325,
	"logits/rejected": 1.8649622201919556,
	"logps/chosen": -2.2890329360961914,
	"logps/rejected": -5.124932289123535,
	"loss": 0.3709,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -3.433549404144287,
	"rewards/margins": 4.253849029541016,
	"rewards/rejected": -7.687398433685303,
	"step": 470
	},
	{
	"epoch": 0.41254834550923936,
	"grad_norm": 2.0272741317749023,
	"learning_rate": 3.839566987447492e-06,
	"logits/chosen": 3.6659038066864014,
	"logits/rejected": 3.202749252319336,
	"logps/chosen": -2.5729193687438965,
	"logps/rejected": -4.992354393005371,
	"loss": 0.3837,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -3.859379529953003,
	"rewards/margins": 3.629152297973633,
	"rewards/rejected": -7.488531589508057,
	"step": 480
	},
	{
	"epoch": 0.4211431027073485,
	"grad_norm": 2.5182268619537354,
	"learning_rate": 3.795067523432826e-06,
	"logits/chosen": 3.327012538909912,
	"logits/rejected": 3.1205530166625977,
	"logps/chosen": -3.016247510910034,
	"logps/rejected": -5.566779136657715,
	"loss": 0.3112,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -4.524371147155762,
	"rewards/margins": 3.8257980346679688,
	"rewards/rejected": -8.35016918182373,
	"step": 490
	},
	{
	"epoch": 0.42973785990545765,
	"grad_norm": 2.990694046020508,
	"learning_rate": 3.7500000000000005e-06,
	"logits/chosen": 2.7793381214141846,
	"logits/rejected": 2.7330098152160645,
	"logps/chosen": -2.7836732864379883,
	"logps/rejected": -5.60109806060791,
	"loss": 0.3069,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -4.175509929656982,
	"rewards/margins": 4.226136684417725,
	"rewards/rejected": -8.401647567749023,
	"step": 500
	},
	{
	"epoch": 0.42973785990545765,
	"eval_logits/chosen": 2.5767242908477783,
	"eval_logits/rejected": 2.1918540000915527,
	"eval_logps/chosen": -3.1751770973205566,
	"eval_logps/rejected": -6.361191749572754,
	"eval_loss": 0.35469338297843933,
	"eval_rewards/accuracies": 0.9157894849777222,
	"eval_rewards/chosen": -4.762764930725098,
	"eval_rewards/margins": 4.779022693634033,
	"eval_rewards/rejected": -9.541787147521973,
	"eval_runtime": 26.0483,
	"eval_samples_per_second": 28.908,
	"eval_steps_per_second": 3.647,
	"step": 500
	},
	{
	"epoch": 0.4383326171035668,
	"grad_norm": 3.1177096366882324,
	"learning_rate": 3.7043841852542884e-06,
	"logits/chosen": 3.4840216636657715,
	"logits/rejected": 2.871774196624756,
	"logps/chosen": -2.739344596862793,
	"logps/rejected": -5.363945960998535,
	"loss": 0.3468,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -4.1090168952941895,
	"rewards/margins": 3.9369025230407715,
	"rewards/rejected": -8.045918464660645,
	"step": 510
	},
	{
	"epoch": 0.44692737430167595,
	"grad_norm": 2.212597131729126,
	"learning_rate": 3.658240087799655e-06,
	"logits/chosen": 2.8667449951171875,
	"logits/rejected": 2.463776111602783,
	"logps/chosen": -3.17940092086792,
	"logps/rejected": -6.375420570373535,
	"loss": 0.3092,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -4.769101619720459,
	"rewards/margins": 4.794029235839844,
	"rewards/rejected": -9.563131332397461,
	"step": 520
	},
	{
	"epoch": 0.45552213149978515,
	"grad_norm": 4.475163459777832,
	"learning_rate": 3.611587947962319e-06,
	"logits/chosen": 3.234764814376831,
	"logits/rejected": 2.6656813621520996,
	"logps/chosen": -3.0503814220428467,
	"logps/rejected": -5.525468826293945,
	"loss": 0.3044,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -4.5755720138549805,
	"rewards/margins": 3.7126305103302,
	"rewards/rejected": -8.288202285766602,
	"step": 530
	},
	{
	"epoch": 0.4641168886978943,
	"grad_norm": 1.8678548336029053,
	"learning_rate": 3.564448228912682e-06,
	"logits/chosen": 2.1433145999908447,
	"logits/rejected": 2.1412692070007324,
	"logps/chosen": -2.6177189350128174,
	"logps/rejected": -5.8179192543029785,
	"loss": 0.3376,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": -3.9265785217285156,
	"rewards/margins": 4.800299644470215,
	"rewards/rejected": -8.72687816619873,
	"step": 540
	},
	{
	"epoch": 0.47271164589600345,
	"grad_norm": 2.3289716243743896,
	"learning_rate": 3.516841607689501e-06,
	"logits/chosen": 2.7216885089874268,
	"logits/rejected": 2.549870729446411,
	"logps/chosen": -2.7370285987854004,
	"logps/rejected": -5.929703712463379,
	"loss": 0.2937,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -4.1055426597595215,
	"rewards/margins": 4.7890119552612305,
	"rewards/rejected": -8.894556045532227,
	"step": 550
	},
	{
	"epoch": 0.47271164589600345,
	"eval_logits/chosen": 2.7431576251983643,
	"eval_logits/rejected": 2.386326789855957,
	"eval_logps/chosen": -3.3791866302490234,
	"eval_logps/rejected": -6.955687999725342,
	"eval_loss": 0.33076339960098267,
	"eval_rewards/accuracies": 0.9157894849777222,
	"eval_rewards/chosen": -5.068779945373535,
	"eval_rewards/margins": 5.364751815795898,
	"eval_rewards/rejected": -10.433531761169434,
	"eval_runtime": 26.0558,
	"eval_samples_per_second": 28.899,
	"eval_steps_per_second": 3.646,
	"step": 550
	},
	{
	"epoch": 0.4813064030941126,
	"grad_norm": 2.7705740928649902,
	"learning_rate": 3.4687889661302577e-06,
	"logits/chosen": 2.2392983436584473,
	"logits/rejected": 1.9859422445297241,
	"logps/chosen": -3.14917254447937,
	"logps/rejected": -6.809067726135254,
	"loss": 0.2983,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -4.723758697509766,
	"rewards/margins": 5.489841938018799,
	"rewards/rejected": -10.213602066040039,
	"step": 560
	},
	{
	"epoch": 0.48990116029222175,
	"grad_norm": 2.1203205585479736,
	"learning_rate": 3.4203113817116955e-06,
	"logits/chosen": 2.5817489624023438,
	"logits/rejected": 2.54498291015625,
	"logps/chosen": -3.4195308685302734,
	"logps/rejected": -7.411266326904297,
	"loss": 0.3014,
	"rewards/accuracies": 0.987500011920929,
	"rewards/chosen": -5.129295349121094,
	"rewards/margins": 5.987602710723877,
	"rewards/rejected": -11.116899490356445,
	"step": 570
	},
	{
	"epoch": 0.4984959174903309,
	"grad_norm": 1.7489718198776245,
	"learning_rate": 3.3714301183045382e-06,
	"logits/chosen": 2.1257646083831787,
	"logits/rejected": 2.1210994720458984,
	"logps/chosen": -2.9680445194244385,
	"logps/rejected": -6.824588775634766,
	"loss": 0.2752,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -4.452066898345947,
	"rewards/margins": 5.784815788269043,
	"rewards/rejected": -10.236883163452148,
	"step": 580
	},
	{
	"epoch": 0.50709067468844,
	"grad_norm": 2.1680099964141846,
	"learning_rate": 3.3221666168464584e-06,
	"logits/chosen": 2.5764970779418945,
	"logits/rejected": 2.2523038387298584,
	"logps/chosen": -3.667435884475708,
	"logps/rejected": -7.162708282470703,
	"loss": 0.2968,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -5.501153945922852,
	"rewards/margins": 5.242908954620361,
	"rewards/rejected": -10.744061470031738,
	"step": 590
	},
	{
	"epoch": 0.5156854318865493,
	"grad_norm": 1.7536494731903076,
	"learning_rate": 3.272542485937369e-06,
	"logits/chosen": 2.2658116817474365,
	"logits/rejected": 1.980126142501831,
	"logps/chosen": -3.5995922088623047,
	"logps/rejected": -7.158552646636963,
	"loss": 0.2971,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -5.399388313293457,
	"rewards/margins": 5.338440418243408,
	"rewards/rejected": -10.737829208374023,
	"step": 600
	},
	{
	"epoch": 0.5156854318865493,
	"eval_logits/chosen": 2.6781415939331055,
	"eval_logits/rejected": 2.508939027786255,
	"eval_logps/chosen": -3.80741548538208,
	"eval_logps/rejected": -7.577634334564209,
	"eval_loss": 0.3210188150405884,
	"eval_rewards/accuracies": 0.9368420839309692,
	"eval_rewards/chosen": -5.711122989654541,
	"eval_rewards/margins": 5.655328273773193,
	"eval_rewards/rejected": -11.366451263427734,
	"eval_runtime": 26.0494,
	"eval_samples_per_second": 28.907,
	"eval_steps_per_second": 3.647,
	"step": 600
	}
	],
	"logging_steps": 10,
	"max_steps": 1500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.4077101809126605e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}