zephyr-7b-dpo-full / trainer_state.json

Model save

266fc39 verified about 1 month ago

No virus

17.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9975412715138743,
	"eval_steps": 10000,
	"global_step": 355,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 2.7777777777777774e-08,
	"logits/chosen": -0.13174405694007874,
	"logits/rejected": -0.027169257402420044,
	"logps/chosen": -477.4691162109375,
	"logps/rejected": -277.6482238769531,
	"loss": 0.4106,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.03,
	"learning_rate": 2.7777777777777776e-07,
	"logits/chosen": -0.0896572694182396,
	"logits/rejected": -0.04708625003695488,
	"logps/chosen": -334.1234130859375,
	"logps/rejected": -264.19927978515625,
	"loss": 0.4187,
	"rewards/accuracies": 0.4027777910232544,
	"rewards/chosen": -0.0011318529723212123,
	"rewards/margins": -0.0006679879734292626,
	"rewards/rejected": -0.0004638649697881192,
	"step": 10
	},
	{
	"epoch": 0.06,
	"learning_rate": 5.555555555555555e-07,
	"logits/chosen": -0.06541652977466583,
	"logits/rejected": -0.027149802073836327,
	"logps/chosen": -312.1936950683594,
	"logps/rejected": -212.1822967529297,
	"loss": 0.422,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": 0.0018345726421102881,
	"rewards/margins": 0.008850323967635632,
	"rewards/rejected": -0.007015751209110022,
	"step": 20
	},
	{
	"epoch": 0.08,
	"learning_rate": 8.333333333333333e-07,
	"logits/chosen": -0.033993594348430634,
	"logits/rejected": 0.014452556148171425,
	"logps/chosen": -369.52886962890625,
	"logps/rejected": -227.0442657470703,
	"loss": 0.4287,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": 0.012805985286831856,
	"rewards/margins": 0.05532551556825638,
	"rewards/rejected": -0.04251953214406967,
	"step": 30
	},
	{
	"epoch": 0.11,
	"learning_rate": 9.99612097830993e-07,
	"logits/chosen": -0.049494121223688126,
	"logits/rejected": -0.007341804448515177,
	"logps/chosen": -328.2823791503906,
	"logps/rejected": -251.8525848388672,
	"loss": 0.4553,
	"rewards/accuracies": 0.5687500238418579,
	"rewards/chosen": -0.03969588130712509,
	"rewards/margins": 0.06737084686756134,
	"rewards/rejected": -0.10706672817468643,
	"step": 40
	},
	{
	"epoch": 0.14,
	"learning_rate": 9.952551076085863e-07,
	"logits/chosen": -0.054784227162599564,
	"logits/rejected": -0.018202614039182663,
	"logps/chosen": -343.4543762207031,
	"logps/rejected": -278.887451171875,
	"loss": 0.478,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": -0.029784226790070534,
	"rewards/margins": 0.14676395058631897,
	"rewards/rejected": -0.17654818296432495,
	"step": 50
	},
	{
	"epoch": 0.17,
	"learning_rate": 9.860986139994238e-07,
	"logits/chosen": -0.17503580451011658,
	"logits/rejected": -0.10935833305120468,
	"logps/chosen": -399.97161865234375,
	"logps/rejected": -245.5420684814453,
	"loss": 0.4856,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": 0.0788765698671341,
	"rewards/margins": 0.30753207206726074,
	"rewards/rejected": -0.22865548729896545,
	"step": 60
	},
	{
	"epoch": 0.2,
	"learning_rate": 9.722313523268027e-07,
	"logits/chosen": -0.13078172504901886,
	"logits/rejected": -0.018874743953347206,
	"logps/chosen": -382.87396240234375,
	"logps/rejected": -252.6072540283203,
	"loss": 0.4667,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": 0.09564249962568283,
	"rewards/margins": 0.21217863261699677,
	"rewards/rejected": -0.11653614044189453,
	"step": 70
	},
	{
	"epoch": 0.22,
	"learning_rate": 9.537877098354784e-07,
	"logits/chosen": 0.019111448898911476,
	"logits/rejected": 0.04028189927339554,
	"logps/chosen": -277.33154296875,
	"logps/rejected": -215.5694122314453,
	"loss": 0.4657,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": 0.01853206194937229,
	"rewards/margins": 0.18713198602199554,
	"rewards/rejected": -0.168599933385849,
	"step": 80
	},
	{
	"epoch": 0.25,
	"learning_rate": 9.309464233486386e-07,
	"logits/chosen": -0.184749573469162,
	"logits/rejected": -0.12197474390268326,
	"logps/chosen": -374.56268310546875,
	"logps/rejected": -224.47860717773438,
	"loss": 0.4724,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": 0.19164375960826874,
	"rewards/margins": 0.33850011229515076,
	"rewards/rejected": -0.1468563675880432,
	"step": 90
	},
	{
	"epoch": 0.28,
	"learning_rate": 9.039288471343504e-07,
	"logits/chosen": -0.06358620524406433,
	"logits/rejected": -0.022323714569211006,
	"logps/chosen": -352.3625183105469,
	"logps/rejected": -265.12457275390625,
	"loss": 0.4579,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": 0.11637835204601288,
	"rewards/margins": 0.15370506048202515,
	"rewards/rejected": -0.03732669726014137,
	"step": 100
	},
	{
	"epoch": 0.31,
	"learning_rate": 8.729968077675454e-07,
	"logits/chosen": -0.16022691130638123,
	"logits/rejected": -0.06551636755466461,
	"logps/chosen": -304.0919189453125,
	"logps/rejected": -257.5033874511719,
	"loss": 0.4444,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": 0.09323982149362564,
	"rewards/margins": 0.10607878863811493,
	"rewards/rejected": -0.012838983908295631,
	"step": 110
	},
	{
	"epoch": 0.34,
	"learning_rate": 8.384500667760089e-07,
	"logits/chosen": -0.18294575810432434,
	"logits/rejected": -0.1334661990404129,
	"logps/chosen": -323.1263427734375,
	"logps/rejected": -206.44387817382812,
	"loss": 0.4535,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": 0.17489886283874512,
	"rewards/margins": 0.1883935183286667,
	"rewards/rejected": -0.013494668528437614,
	"step": 120
	},
	{
	"epoch": 0.37,
	"learning_rate": 8.006234156598042e-07,
	"logits/chosen": -0.09687581658363342,
	"logits/rejected": -0.0031311712227761745,
	"logps/chosen": -361.1056823730469,
	"logps/rejected": -219.41552734375,
	"loss": 0.4484,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.12578140199184418,
	"rewards/margins": 0.2744066119194031,
	"rewards/rejected": -0.1486252248287201,
	"step": 130
	},
	{
	"epoch": 0.39,
	"learning_rate": 7.59883431436215e-07,
	"logits/chosen": -0.03516136482357979,
	"logits/rejected": -0.005446717143058777,
	"logps/chosen": -316.314208984375,
	"logps/rejected": -241.97024536132812,
	"loss": 0.4383,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.025916021317243576,
	"rewards/margins": 0.16546496748924255,
	"rewards/rejected": -0.13954894244670868,
	"step": 140
	},
	{
	"epoch": 0.42,
	"learning_rate": 7.166249241521318e-07,
	"logits/chosen": 0.0030886970926076174,
	"logits/rejected": 0.06723493337631226,
	"logps/chosen": -293.86627197265625,
	"logps/rejected": -255.26492309570312,
	"loss": 0.4382,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": -0.05645722150802612,
	"rewards/margins": 0.17538480460643768,
	"rewards/rejected": -0.2318420112133026,
	"step": 150
	},
	{
	"epoch": 0.45,
	"learning_rate": 6.712671107909358e-07,
	"logits/chosen": -0.03268152475357056,
	"logits/rejected": 0.12709534168243408,
	"logps/chosen": -369.74859619140625,
	"logps/rejected": -260.13128662109375,
	"loss": 0.4255,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": 0.003464625682681799,
	"rewards/margins": 0.2506219744682312,
	"rewards/rejected": -0.24715733528137207,
	"step": 160
	},
	{
	"epoch": 0.48,
	"learning_rate": 6.24249552652447e-07,
	"logits/chosen": 0.04178273305296898,
	"logits/rejected": 0.12335582822561264,
	"logps/chosen": -316.4767150878906,
	"logps/rejected": -268.18829345703125,
	"loss": 0.4169,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -0.006209957879036665,
	"rewards/margins": 0.20326288044452667,
	"rewards/rejected": -0.20947282016277313,
	"step": 170
	},
	{
	"epoch": 0.51,
	"learning_rate": 5.760278955766694e-07,
	"logits/chosen": -0.12427058070898056,
	"logits/rejected": 0.009830540046095848,
	"logps/chosen": -327.13958740234375,
	"logps/rejected": -258.3717041015625,
	"loss": 0.4267,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": -0.042253121733665466,
	"rewards/margins": 0.19665148854255676,
	"rewards/rejected": -0.23890459537506104,
	"step": 180
	},
	{
	"epoch": 0.53,
	"learning_rate": 5.270694542927088e-07,
	"logits/chosen": -0.16560761630535126,
	"logits/rejected": -0.04073227569460869,
	"logps/chosen": -341.1844482421875,
	"logps/rejected": -227.2850341796875,
	"loss": 0.4261,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": 0.0071119763888418674,
	"rewards/margins": 0.2952454090118408,
	"rewards/rejected": -0.288133442401886,
	"step": 190
	},
	{
	"epoch": 0.56,
	"learning_rate": 4.778486836848107e-07,
	"logits/chosen": -0.007979141548275948,
	"logits/rejected": 0.1243690699338913,
	"logps/chosen": -329.4273986816406,
	"logps/rejected": -260.57806396484375,
	"loss": 0.4096,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": -0.19496320188045502,
	"rewards/margins": 0.16824397444725037,
	"rewards/rejected": -0.3632071614265442,
	"step": 200
	},
	{
	"epoch": 0.59,
	"learning_rate": 4.2884258086335745e-07,
	"logits/chosen": 0.09336410462856293,
	"logits/rejected": 0.19506987929344177,
	"logps/chosen": -391.4615173339844,
	"logps/rejected": -279.2521057128906,
	"loss": 0.4003,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -0.11562051624059677,
	"rewards/margins": 0.245724156498909,
	"rewards/rejected": -0.36134466528892517,
	"step": 210
	},
	{
	"epoch": 0.62,
	"learning_rate": 3.8052606259922095e-07,
	"logits/chosen": -0.16688141226768494,
	"logits/rejected": -0.08500812947750092,
	"logps/chosen": -362.3302917480469,
	"logps/rejected": -247.5942840576172,
	"loss": 0.4244,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.07475811243057251,
	"rewards/margins": 0.20620782673358917,
	"rewards/rejected": -0.28096598386764526,
	"step": 220
	},
	{
	"epoch": 0.65,
	"learning_rate": 3.333673629186279e-07,
	"logits/chosen": -0.02717510424554348,
	"logits/rejected": 0.12363864481449127,
	"logps/chosen": -332.33319091796875,
	"logps/rejected": -247.22817993164062,
	"loss": 0.4115,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.08057795464992523,
	"rewards/margins": 0.2381751984357834,
	"rewards/rejected": -0.3187531530857086,
	"step": 230
	},
	{
	"epoch": 0.67,
	"learning_rate": 2.878234954603167e-07,
	"logits/chosen": 0.033598482608795166,
	"logits/rejected": 0.18793973326683044,
	"logps/chosen": -381.00506591796875,
	"logps/rejected": -270.8756103515625,
	"loss": 0.3798,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.12533587217330933,
	"rewards/margins": 0.24204333126544952,
	"rewards/rejected": -0.36737921833992004,
	"step": 240
	},
	{
	"epoch": 0.7,
	"learning_rate": 2.443358245691555e-07,
	"logits/chosen": 0.030673842877149582,
	"logits/rejected": 0.18992134928703308,
	"logps/chosen": -383.7073059082031,
	"logps/rejected": -261.9964294433594,
	"loss": 0.3877,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.09187673032283783,
	"rewards/margins": 0.3298332989215851,
	"rewards/rejected": -0.4217100143432617,
	"step": 250
	},
	{
	"epoch": 0.73,
	"learning_rate": 2.0332578804662782e-07,
	"logits/chosen": 0.024305405095219612,
	"logits/rejected": 0.132650688290596,
	"logps/chosen": -368.91131591796875,
	"logps/rejected": -269.9962463378906,
	"loss": 0.4026,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.14426225423812866,
	"rewards/margins": 0.2727457880973816,
	"rewards/rejected": -0.41700801253318787,
	"step": 260
	},
	{
	"epoch": 0.76,
	"learning_rate": 1.651908130088947e-07,
	"logits/chosen": 0.13495397567749023,
	"logits/rejected": 0.21630129218101501,
	"logps/chosen": -346.6638488769531,
	"logps/rejected": -274.6488952636719,
	"loss": 0.3821,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.25730255246162415,
	"rewards/margins": 0.2660498023033142,
	"rewards/rejected": -0.5233522653579712,
	"step": 270
	},
	{
	"epoch": 0.79,
	"learning_rate": 1.3030046443173442e-07,
	"logits/chosen": 0.12753400206565857,
	"logits/rejected": 0.26089444756507874,
	"logps/chosen": -396.9707336425781,
	"logps/rejected": -273.0684814453125,
	"loss": 0.4015,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.19528909027576447,
	"rewards/margins": 0.3000025451183319,
	"rewards/rejected": -0.49529165029525757,
	"step": 280
	},
	{
	"epoch": 0.81,
	"learning_rate": 9.899286370670574e-08,
	"logits/chosen": 0.18344645202159882,
	"logits/rejected": 0.3353565037250519,
	"logps/chosen": -358.2286376953125,
	"logps/rejected": -288.5234680175781,
	"loss": 0.4025,
	"rewards/accuracies": 0.5687500238418579,
	"rewards/chosen": -0.28220534324645996,
	"rewards/margins": 0.19654087722301483,
	"rewards/rejected": -0.478746235370636,
	"step": 290
	},
	{
	"epoch": 0.84,
	"learning_rate": 7.157141191620548e-08,
	"logits/chosen": 0.0641961470246315,
	"logits/rejected": 0.2366667091846466,
	"logps/chosen": -380.06103515625,
	"logps/rejected": -267.75213623046875,
	"loss": 0.3997,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.13748347759246826,
	"rewards/margins": 0.3018878996372223,
	"rewards/rejected": -0.43937140703201294,
	"step": 300
	},
	{
	"epoch": 0.87,
	"learning_rate": 4.830184958207006e-08,
	"logits/chosen": 0.03403336927294731,
	"logits/rejected": 0.19396355748176575,
	"logps/chosen": -347.7532653808594,
	"logps/rejected": -284.3299865722656,
	"loss": 0.4026,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": -0.16916589438915253,
	"rewards/margins": 0.25709637999534607,
	"rewards/rejected": -0.4262623190879822,
	"step": 310
	},
	{
	"epoch": 0.9,
	"learning_rate": 2.940968138161731e-08,
	"logits/chosen": 0.11429999023675919,
	"logits/rejected": 0.17834721505641937,
	"logps/chosen": -330.48284912109375,
	"logps/rejected": -274.64727783203125,
	"loss": 0.3982,
	"rewards/accuracies": 0.612500011920929,
	"rewards/chosen": -0.1756475865840912,
	"rewards/margins": 0.1860581338405609,
	"rewards/rejected": -0.3617057204246521,
	"step": 320
	},
	{
	"epoch": 0.93,
	"learning_rate": 1.507799078812799e-08,
	"logits/chosen": -0.007492154836654663,
	"logits/rejected": 0.10714348405599594,
	"logps/chosen": -425.7674865722656,
	"logps/rejected": -314.00860595703125,
	"loss": 0.3971,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -0.17962414026260376,
	"rewards/margins": 0.292041152715683,
	"rewards/rejected": -0.47166532278060913,
	"step": 330
	},
	{
	"epoch": 0.96,
	"learning_rate": 5.445665814031941e-09,
	"logits/chosen": 0.06636445224285126,
	"logits/rejected": 0.1753680408000946,
	"logps/chosen": -369.9612731933594,
	"logps/rejected": -278.1523132324219,
	"loss": 0.4052,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.18568792939186096,
	"rewards/margins": 0.26998209953308105,
	"rewards/rejected": -0.4556700587272644,
	"step": 340
	},
	{
	"epoch": 0.98,
	"learning_rate": 6.060530510659245e-10,
	"logits/chosen": 0.03166942670941353,
	"logits/rejected": 0.10389814525842667,
	"logps/chosen": -357.81988525390625,
	"logps/rejected": -275.1876525878906,
	"loss": 0.4038,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.20625650882720947,
	"rewards/margins": 0.26138800382614136,
	"rewards/rejected": -0.46764451265335083,
	"step": 350
	},
	{
	"epoch": 1.0,
	"step": 355,
	"total_flos": 0.0,
	"train_loss": 0.4252443082735572,
	"train_runtime": 5295.2592,
	"train_samples_per_second": 8.602,
	"train_steps_per_second": 0.067
	}
	],
	"logging_steps": 10,
	"max_steps": 355,
	"num_train_epochs": 1,
	"save_steps": 10000,
	"total_flos": 0.0,
	"trial_name": null,
	"trial_params": null
	}