zephyr-7b-dpo-full / trainer_state.json

Model save

df30c76 verified about 1 month ago

No virus

25.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9984301412872841,
	"eval_steps": 100,
	"global_step": 477,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 1.0416666666666666e-08,
	"logits/chosen": 0.01849743165075779,
	"logits/rejected": 0.013860300183296204,
	"logps/chosen": -318.92303466796875,
	"logps/rejected": -327.4117126464844,
	"loss": 0.0872,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.02,
	"learning_rate": 1.0416666666666667e-07,
	"logits/chosen": 0.0165844839066267,
	"logits/rejected": 0.029045505449175835,
	"logps/chosen": -380.119384765625,
	"logps/rejected": -372.70452880859375,
	"loss": 0.0916,
	"rewards/accuracies": 0.4930555522441864,
	"rewards/chosen": 0.00031676876824349165,
	"rewards/margins": 0.0008045767317526042,
	"rewards/rejected": -0.00048780813813209534,
	"step": 10
	},
	{
	"epoch": 0.04,
	"learning_rate": 2.0833333333333333e-07,
	"logits/chosen": -0.01443287543952465,
	"logits/rejected": 0.01765434443950653,
	"logps/chosen": -396.4976501464844,
	"logps/rejected": -366.0671691894531,
	"loss": 0.0929,
	"rewards/accuracies": 0.581250011920929,
	"rewards/chosen": 0.000257034320384264,
	"rewards/margins": 0.0013006285298615694,
	"rewards/rejected": -0.0010435942094773054,
	"step": 20
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.1249999999999997e-07,
	"logits/chosen": 0.037671297788619995,
	"logits/rejected": 0.06698160618543625,
	"logps/chosen": -374.0677795410156,
	"logps/rejected": -360.3742370605469,
	"loss": 0.0849,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -0.0024321433156728745,
	"rewards/margins": 0.003862987505272031,
	"rewards/rejected": -0.006295130588114262,
	"step": 30
	},
	{
	"epoch": 0.08,
	"learning_rate": 4.1666666666666667e-07,
	"logits/chosen": -0.016021814197301865,
	"logits/rejected": 0.040130265057086945,
	"logps/chosen": -384.62115478515625,
	"logps/rejected": -369.37591552734375,
	"loss": 0.0899,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.005014514084905386,
	"rewards/margins": 0.00654798885807395,
	"rewards/rejected": -0.01156250387430191,
	"step": 40
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.999731868769026e-07,
	"logits/chosen": 0.021576542407274246,
	"logits/rejected": 0.04092331975698471,
	"logps/chosen": -395.0044860839844,
	"logps/rejected": -385.6026306152344,
	"loss": 0.0905,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -0.011928597465157509,
	"rewards/margins": 0.01728428527712822,
	"rewards/rejected": -0.02921288087964058,
	"step": 50
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.990353313429303e-07,
	"logits/chosen": 0.09396852552890778,
	"logits/rejected": 0.177364319562912,
	"logps/chosen": -373.46978759765625,
	"logps/rejected": -350.2561950683594,
	"loss": 0.0896,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.022122707217931747,
	"rewards/margins": 0.04510267823934555,
	"rewards/rejected": -0.067225381731987,
	"step": 60
	},
	{
	"epoch": 0.15,
	"learning_rate": 4.967625656594781e-07,
	"logits/chosen": 0.09231746941804886,
	"logits/rejected": 0.10504136979579926,
	"logps/chosen": -380.4566955566406,
	"logps/rejected": -384.76495361328125,
	"loss": 0.0895,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.020214151591062546,
	"rewards/margins": 0.044125162065029144,
	"rewards/rejected": -0.06433931738138199,
	"step": 70
	},
	{
	"epoch": 0.17,
	"learning_rate": 4.93167072587771e-07,
	"logits/chosen": 0.1812177449464798,
	"logits/rejected": 0.2344866693019867,
	"logps/chosen": -373.54779052734375,
	"logps/rejected": -344.9815673828125,
	"loss": 0.0887,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -0.003499386366456747,
	"rewards/margins": 0.11121924966573715,
	"rewards/rejected": -0.11471863090991974,
	"step": 80
	},
	{
	"epoch": 0.19,
	"learning_rate": 4.882681251368548e-07,
	"logits/chosen": 0.23078179359436035,
	"logits/rejected": 0.3160688281059265,
	"logps/chosen": -398.22735595703125,
	"logps/rejected": -354.7359619140625,
	"loss": 0.0854,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -0.03982505947351456,
	"rewards/margins": 0.12135788053274155,
	"rewards/rejected": -0.1611829400062561,
	"step": 90
	},
	{
	"epoch": 0.21,
	"learning_rate": 4.820919832540181e-07,
	"logits/chosen": 0.33522385358810425,
	"logits/rejected": 0.34693339467048645,
	"logps/chosen": -373.6068115234375,
	"logps/rejected": -393.63311767578125,
	"loss": 0.09,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.05229802802205086,
	"rewards/margins": 0.1304590255022049,
	"rewards/rejected": -0.18275703489780426,
	"step": 100
	},
	{
	"epoch": 0.21,
	"eval_logits/chosen": 0.49261584877967834,
	"eval_logits/rejected": 0.5302599668502808,
	"eval_logps/chosen": -392.5748291015625,
	"eval_logps/rejected": -418.8423767089844,
	"eval_loss": 0.08443526923656464,
	"eval_rewards/accuracies": 0.69921875,
	"eval_rewards/chosen": -0.09445539116859436,
	"eval_rewards/margins": 0.20123936235904694,
	"eval_rewards/rejected": -0.2956947684288025,
	"eval_runtime": 75.5045,
	"eval_samples_per_second": 26.488,
	"eval_steps_per_second": 0.424,
	"step": 100
	},
	{
	"epoch": 0.23,
	"learning_rate": 4.7467175306295647e-07,
	"logits/chosen": 0.5233359336853027,
	"logits/rejected": 0.5924205780029297,
	"logps/chosen": -409.8135681152344,
	"logps/rejected": -400.6418151855469,
	"loss": 0.0775,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.17791931331157684,
	"rewards/margins": 0.2254853993654251,
	"rewards/rejected": -0.40340471267700195,
	"step": 110
	},
	{
	"epoch": 0.25,
	"learning_rate": 4.6604720940421207e-07,
	"logits/chosen": 0.6610409021377563,
	"logits/rejected": 0.8009072542190552,
	"logps/chosen": -459.3719787597656,
	"logps/rejected": -480.128662109375,
	"loss": 0.0697,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.2562519609928131,
	"rewards/margins": 0.2973101735115051,
	"rewards/rejected": -0.5535621643066406,
	"step": 120
	},
	{
	"epoch": 0.27,
	"learning_rate": 4.5626458262912735e-07,
	"logits/chosen": 0.8142817616462708,
	"logits/rejected": 1.0136159658432007,
	"logps/chosen": -453.57037353515625,
	"logps/rejected": -438.6094665527344,
	"loss": 0.0557,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -0.45035696029663086,
	"rewards/margins": 0.2075636386871338,
	"rewards/rejected": -0.6579206585884094,
	"step": 130
	},
	{
	"epoch": 0.29,
	"learning_rate": 4.453763107901675e-07,
	"logits/chosen": 0.9267638325691223,
	"logits/rejected": 0.9543718099594116,
	"logps/chosen": -426.4134826660156,
	"logps/rejected": -436.49261474609375,
	"loss": 0.06,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -0.33891427516937256,
	"rewards/margins": 0.302972674369812,
	"rewards/rejected": -0.6418868899345398,
	"step": 140
	},
	{
	"epoch": 0.31,
	"learning_rate": 4.3344075855595097e-07,
	"logits/chosen": 0.834929347038269,
	"logits/rejected": 1.0096248388290405,
	"logps/chosen": -383.9637756347656,
	"logps/rejected": -392.84912109375,
	"loss": 0.0588,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -0.2390960454940796,
	"rewards/margins": 0.35297515988349915,
	"rewards/rejected": -0.5920711755752563,
	"step": 150
	},
	{
	"epoch": 0.33,
	"learning_rate": 4.2052190435769554e-07,
	"logits/chosen": 1.0894076824188232,
	"logits/rejected": 1.2157137393951416,
	"logps/chosen": -429.09857177734375,
	"logps/rejected": -461.9745178222656,
	"loss": 0.0509,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.5552287101745605,
	"rewards/margins": 0.3786623775959015,
	"rewards/rejected": -0.9338911175727844,
	"step": 160
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.0668899744407567e-07,
	"logits/chosen": 0.9078506231307983,
	"logits/rejected": 1.0372017621994019,
	"logps/chosen": -482.3373107910156,
	"logps/rejected": -479.88916015625,
	"loss": 0.0479,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.505352795124054,
	"rewards/margins": 0.26132458448410034,
	"rewards/rejected": -0.7666773796081543,
	"step": 170
	},
	{
	"epoch": 0.38,
	"learning_rate": 3.920161866827889e-07,
	"logits/chosen": 0.80833500623703,
	"logits/rejected": 0.8488121032714844,
	"logps/chosen": -413.3409118652344,
	"logps/rejected": -438.3705139160156,
	"loss": 0.0476,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -0.4049296975135803,
	"rewards/margins": 0.3900560736656189,
	"rewards/rejected": -0.7949857115745544,
	"step": 180
	},
	{
	"epoch": 0.4,
	"learning_rate": 3.765821230985757e-07,
	"logits/chosen": 0.9091412425041199,
	"logits/rejected": 1.0051593780517578,
	"logps/chosen": -395.74383544921875,
	"logps/rejected": -402.8367919921875,
	"loss": 0.0478,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.4961649775505066,
	"rewards/margins": 0.3637959361076355,
	"rewards/rejected": -0.8599609136581421,
	"step": 190
	},
	{
	"epoch": 0.42,
	"learning_rate": 3.604695382782159e-07,
	"logits/chosen": 1.0421111583709717,
	"logits/rejected": 1.1686071157455444,
	"logps/chosen": -422.24224853515625,
	"logps/rejected": -469.1251525878906,
	"loss": 0.0405,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.7005800008773804,
	"rewards/margins": 0.46449971199035645,
	"rewards/rejected": -1.1650797128677368,
	"step": 200
	},
	{
	"epoch": 0.42,
	"eval_logits/chosen": 1.1859312057495117,
	"eval_logits/rejected": 1.2733540534973145,
	"eval_logps/chosen": -449.3788757324219,
	"eval_logps/rejected": -505.84661865234375,
	"eval_loss": 0.045209601521492004,
	"eval_rewards/accuracies": 0.75390625,
	"eval_rewards/chosen": -0.6624964475631714,
	"eval_rewards/margins": 0.5032405257225037,
	"eval_rewards/rejected": -1.1657369136810303,
	"eval_runtime": 75.0855,
	"eval_samples_per_second": 26.636,
	"eval_steps_per_second": 0.426,
	"step": 200
	},
	{
	"epoch": 0.44,
	"learning_rate": 3.4376480090239047e-07,
	"logits/chosen": 0.9289053082466125,
	"logits/rejected": 1.0322377681732178,
	"logps/chosen": -454.09521484375,
	"logps/rejected": -484.48956298828125,
	"loss": 0.0428,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.5330354571342468,
	"rewards/margins": 0.47441625595092773,
	"rewards/rejected": -1.0074517726898193,
	"step": 210
	},
	{
	"epoch": 0.46,
	"learning_rate": 3.265574537815398e-07,
	"logits/chosen": 0.6325788497924805,
	"logits/rejected": 0.8454742431640625,
	"logps/chosen": -443.6888732910156,
	"logps/rejected": -444.2510681152344,
	"loss": 0.051,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.4299241006374359,
	"rewards/margins": 0.41193485260009766,
	"rewards/rejected": -0.8418590426445007,
	"step": 220
	},
	{
	"epoch": 0.48,
	"learning_rate": 3.0893973387735683e-07,
	"logits/chosen": 0.8997888565063477,
	"logits/rejected": 0.9853512048721313,
	"logps/chosen": -413.89520263671875,
	"logps/rejected": -458.99676513671875,
	"loss": 0.0525,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.5308324694633484,
	"rewards/margins": 0.4597201943397522,
	"rewards/rejected": -0.9905527830123901,
	"step": 230
	},
	{
	"epoch": 0.5,
	"learning_rate": 2.910060778827554e-07,
	"logits/chosen": 1.0547417402267456,
	"logits/rejected": 1.1306800842285156,
	"logps/chosen": -493.91790771484375,
	"logps/rejected": -539.1799926757812,
	"loss": 0.0471,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.6113244295120239,
	"rewards/margins": 0.5182110667228699,
	"rewards/rejected": -1.1295355558395386,
	"step": 240
	},
	{
	"epoch": 0.52,
	"learning_rate": 2.7285261601056697e-07,
	"logits/chosen": 1.2281643152236938,
	"logits/rejected": 1.359076976776123,
	"logps/chosen": -466.77001953125,
	"logps/rejected": -483.91259765625,
	"loss": 0.0419,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.7258759140968323,
	"rewards/margins": 0.42711353302001953,
	"rewards/rejected": -1.152989387512207,
	"step": 250
	},
	{
	"epoch": 0.54,
	"learning_rate": 2.5457665670441937e-07,
	"logits/chosen": 1.2255347967147827,
	"logits/rejected": 1.462003469467163,
	"logps/chosen": -491.76190185546875,
	"logps/rejected": -505.47161865234375,
	"loss": 0.0451,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.7059242725372314,
	"rewards/margins": 0.6359472274780273,
	"rewards/rejected": -1.3418715000152588,
	"step": 260
	},
	{
	"epoch": 0.57,
	"learning_rate": 2.3627616503391812e-07,
	"logits/chosen": 1.3674428462982178,
	"logits/rejected": 1.578064203262329,
	"logps/chosen": -486.397216796875,
	"logps/rejected": -492.1827087402344,
	"loss": 0.0472,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.7773429155349731,
	"rewards/margins": 0.38945746421813965,
	"rewards/rejected": -1.1668003797531128,
	"step": 270
	},
	{
	"epoch": 0.59,
	"learning_rate": 2.1804923757009882e-07,
	"logits/chosen": 1.366081953048706,
	"logits/rejected": 1.5207383632659912,
	"logps/chosen": -477.0743103027344,
	"logps/rejected": -530.8953857421875,
	"loss": 0.0445,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.8941423296928406,
	"rewards/margins": 0.4790104925632477,
	"rewards/rejected": -1.3731528520584106,
	"step": 280
	},
	{
	"epoch": 0.61,
	"learning_rate": 1.9999357655598891e-07,
	"logits/chosen": 1.2689809799194336,
	"logits/rejected": 1.4011085033416748,
	"logps/chosen": -438.982421875,
	"logps/rejected": -469.45703125,
	"loss": 0.0464,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.62468022108078,
	"rewards/margins": 0.513271689414978,
	"rewards/rejected": -1.1379519701004028,
	"step": 290
	},
	{
	"epoch": 0.63,
	"learning_rate": 1.8220596619089573e-07,
	"logits/chosen": 1.1505718231201172,
	"logits/rejected": 1.4240622520446777,
	"logps/chosen": -458.03631591796875,
	"logps/rejected": -443.11712646484375,
	"loss": 0.0479,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.6710134148597717,
	"rewards/margins": 0.39567166566848755,
	"rewards/rejected": -1.0666849613189697,
	"step": 300
	},
	{
	"epoch": 0.63,
	"eval_logits/chosen": 1.2982094287872314,
	"eval_logits/rejected": 1.409311056137085,
	"eval_logps/chosen": -435.2132568359375,
	"eval_logps/rejected": -501.30841064453125,
	"eval_loss": 0.047696553170681,
	"eval_rewards/accuracies": 0.73828125,
	"eval_rewards/chosen": -0.5208398699760437,
	"eval_rewards/margins": 0.5995149612426758,
	"eval_rewards/rejected": -1.1203548908233643,
	"eval_runtime": 75.296,
	"eval_samples_per_second": 26.562,
	"eval_steps_per_second": 0.425,
	"step": 300
	},
	{
	"epoch": 0.65,
	"learning_rate": 1.647817538357072e-07,
	"logits/chosen": 1.2780801057815552,
	"logits/rejected": 1.3399560451507568,
	"logps/chosen": -475.42413330078125,
	"logps/rejected": -517.4520263671875,
	"loss": 0.0478,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.7529923319816589,
	"rewards/margins": 0.4368392825126648,
	"rewards/rejected": -1.1898316144943237,
	"step": 310
	},
	{
	"epoch": 0.67,
	"learning_rate": 1.478143389201113e-07,
	"logits/chosen": 1.198677897453308,
	"logits/rejected": 1.4085700511932373,
	"logps/chosen": -498.35711669921875,
	"logps/rejected": -497.4380798339844,
	"loss": 0.0424,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -0.6401562690734863,
	"rewards/margins": 0.48012202978134155,
	"rewards/rejected": -1.1202783584594727,
	"step": 320
	},
	{
	"epoch": 0.69,
	"learning_rate": 1.3139467229135998e-07,
	"logits/chosen": 1.2183105945587158,
	"logits/rejected": 1.2747819423675537,
	"logps/chosen": -442.5284118652344,
	"logps/rejected": -533.216796875,
	"loss": 0.0454,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.5910875201225281,
	"rewards/margins": 0.5799761414527893,
	"rewards/rejected": -1.1710636615753174,
	"step": 330
	},
	{
	"epoch": 0.71,
	"learning_rate": 1.1561076868822755e-07,
	"logits/chosen": 1.203604817390442,
	"logits/rejected": 1.1832085847854614,
	"logps/chosen": -441.4521484375,
	"logps/rejected": -512.8982543945312,
	"loss": 0.0428,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.7571262121200562,
	"rewards/margins": 0.4640630781650543,
	"rewards/rejected": -1.221189260482788,
	"step": 340
	},
	{
	"epoch": 0.73,
	"learning_rate": 1.0054723495346482e-07,
	"logits/chosen": 1.3052194118499756,
	"logits/rejected": 1.382683515548706,
	"logps/chosen": -465.3661193847656,
	"logps/rejected": -528.7847290039062,
	"loss": 0.0412,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.7757940292358398,
	"rewards/margins": 0.4744884967803955,
	"rewards/rejected": -1.2502825260162354,
	"step": 350
	},
	{
	"epoch": 0.75,
	"learning_rate": 8.628481651367875e-08,
	"logits/chosen": 1.1976938247680664,
	"logits/rejected": 1.432969331741333,
	"logps/chosen": -491.15771484375,
	"logps/rejected": -515.0520629882812,
	"loss": 0.0446,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -0.6491819620132446,
	"rewards/margins": 0.6244359612464905,
	"rewards/rejected": -1.2736178636550903,
	"step": 360
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.289996455765748e-08,
	"logits/chosen": 1.192779541015625,
	"logits/rejected": 1.324210524559021,
	"logps/chosen": -504.5486755371094,
	"logps/rejected": -508.7030334472656,
	"loss": 0.0435,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.7155844569206238,
	"rewards/margins": 0.5151349306106567,
	"rewards/rejected": -1.2307194471359253,
	"step": 370
	},
	{
	"epoch": 0.8,
	"learning_rate": 6.046442623320145e-08,
	"logits/chosen": 1.223356008529663,
	"logits/rejected": 1.4434764385223389,
	"logps/chosen": -474.7169494628906,
	"logps/rejected": -518.0782470703125,
	"loss": 0.0476,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.6729675531387329,
	"rewards/margins": 0.6387326717376709,
	"rewards/rejected": -1.3117002248764038,
	"step": 380
	},
	{
	"epoch": 0.82,
	"learning_rate": 4.904486005914027e-08,
	"logits/chosen": 1.3060978651046753,
	"logits/rejected": 1.4896109104156494,
	"logps/chosen": -470.46661376953125,
	"logps/rejected": -502.4981384277344,
	"loss": 0.0482,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.6783354878425598,
	"rewards/margins": 0.5045996904373169,
	"rewards/rejected": -1.1829349994659424,
	"step": 390
	},
	{
	"epoch": 0.84,
	"learning_rate": 3.8702478614051345e-08,
	"logits/chosen": 1.3413165807724,
	"logits/rejected": 1.4800562858581543,
	"logps/chosen": -450.84844970703125,
	"logps/rejected": -509.7266540527344,
	"loss": 0.0457,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -0.7674819231033325,
	"rewards/margins": 0.4173991084098816,
	"rewards/rejected": -1.1848809719085693,
	"step": 400
	},
	{
	"epoch": 0.84,
	"eval_logits/chosen": 1.491492748260498,
	"eval_logits/rejected": 1.6154029369354248,
	"eval_logps/chosen": -448.419677734375,
	"eval_logps/rejected": -518.3443603515625,
	"eval_loss": 0.044891636818647385,
	"eval_rewards/accuracies": 0.73828125,
	"eval_rewards/chosen": -0.6529037952423096,
	"eval_rewards/margins": 0.6378109455108643,
	"eval_rewards/rejected": -1.2907147407531738,
	"eval_runtime": 74.6873,
	"eval_samples_per_second": 26.778,
	"eval_steps_per_second": 0.428,
	"step": 400
	},
	{
	"epoch": 0.86,
	"learning_rate": 2.9492720416985e-08,
	"logits/chosen": 1.3658090829849243,
	"logits/rejected": 1.523946762084961,
	"logps/chosen": -461.0426330566406,
	"logps/rejected": -491.6429138183594,
	"loss": 0.045,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -0.6857269406318665,
	"rewards/margins": 0.5137700438499451,
	"rewards/rejected": -1.1994969844818115,
	"step": 410
	},
	{
	"epoch": 0.88,
	"learning_rate": 2.1464952759020856e-08,
	"logits/chosen": 1.3796783685684204,
	"logits/rejected": 1.5178402662277222,
	"logps/chosen": -454.60455322265625,
	"logps/rejected": -483.65704345703125,
	"loss": 0.0418,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -0.6705530285835266,
	"rewards/margins": 0.604373574256897,
	"rewards/rejected": -1.2749265432357788,
	"step": 420
	},
	{
	"epoch": 0.9,
	"learning_rate": 1.4662207078575684e-08,
	"logits/chosen": 1.334680199623108,
	"logits/rejected": 1.4741976261138916,
	"logps/chosen": -504.280029296875,
	"logps/rejected": -529.8871459960938,
	"loss": 0.0453,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.7305961847305298,
	"rewards/margins": 0.5881385207176208,
	"rewards/rejected": -1.3187347650527954,
	"step": 430
	},
	{
	"epoch": 0.92,
	"learning_rate": 9.12094829893642e-09,
	"logits/chosen": 1.3827157020568848,
	"logits/rejected": 1.5478546619415283,
	"logps/chosen": -453.01171875,
	"logps/rejected": -480.3030700683594,
	"loss": 0.0414,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.7755357027053833,
	"rewards/margins": 0.5378071069717407,
	"rewards/rejected": -1.313342809677124,
	"step": 440
	},
	{
	"epoch": 0.94,
	"learning_rate": 4.8708793644441086e-09,
	"logits/chosen": 1.2280631065368652,
	"logits/rejected": 1.454526662826538,
	"logps/chosen": -487.4305114746094,
	"logps/rejected": -500.71087646484375,
	"loss": 0.0425,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -0.6377500295639038,
	"rewards/margins": 0.5590785145759583,
	"rewards/rejected": -1.1968284845352173,
	"step": 450
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.9347820230782295e-09,
	"logits/chosen": 1.336721658706665,
	"logits/rejected": 1.4986612796783447,
	"logps/chosen": -455.5997619628906,
	"logps/rejected": -474.46038818359375,
	"loss": 0.0425,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.7689257264137268,
	"rewards/margins": 0.4747004508972168,
	"rewards/rejected": -1.243626356124878,
	"step": 460
	},
	{
	"epoch": 0.98,
	"learning_rate": 3.2839470889836627e-10,
	"logits/chosen": 1.2109500169754028,
	"logits/rejected": 1.3351854085922241,
	"logps/chosen": -490.6439514160156,
	"logps/rejected": -541.4273681640625,
	"loss": 0.0421,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.7248164415359497,
	"rewards/margins": 0.548802375793457,
	"rewards/rejected": -1.2736186981201172,
	"step": 470
	},
	{
	"epoch": 1.0,
	"step": 477,
	"total_flos": 0.0,
	"train_loss": 0.0564979040210352,
	"train_runtime": 4410.0999,
	"train_samples_per_second": 13.862,
	"train_steps_per_second": 0.108
	}
	],
	"logging_steps": 10,
	"max_steps": 477,
	"num_train_epochs": 1,
	"save_steps": 1000,
	"total_flos": 0.0,
	"trial_name": null,
	"trial_params": null
	}