biomistral-7b-dpo-full-wo-live_qa-ep3 / trainer_state.json

Model save

c3d6868 verified 2 months ago

No virus

18.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 100,
	"global_step": 306,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 16.160893330879862,
	"learning_rate": 1.6129032258064514e-08,
	"logits/chosen": -1.6982225179672241,
	"logits/rejected": -1.086500644683838,
	"logps/chosen": -208.50250244140625,
	"logps/rejected": -262.22808837890625,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.03,
	"grad_norm": 18.69135932886243,
	"learning_rate": 1.6129032258064515e-07,
	"logits/chosen": -1.4697270393371582,
	"logits/rejected": -0.9334302544593811,
	"logps/chosen": -234.84239196777344,
	"logps/rejected": -317.2652893066406,
	"loss": 0.6929,
	"rewards/accuracies": 0.4375,
	"rewards/chosen": -0.000248217984335497,
	"rewards/margins": 0.00017482459952589124,
	"rewards/rejected": -0.00042304262751713395,
	"step": 10
	},
	{
	"epoch": 0.07,
	"grad_norm": 16.031117031534944,
	"learning_rate": 3.225806451612903e-07,
	"logits/chosen": -1.3034999370574951,
	"logits/rejected": -1.0336174964904785,
	"logps/chosen": -224.30307006835938,
	"logps/rejected": -348.02825927734375,
	"loss": 0.6916,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": 0.0018210510024800897,
	"rewards/margins": 0.0035554722417145967,
	"rewards/rejected": -0.0017344218213111162,
	"step": 20
	},
	{
	"epoch": 0.1,
	"grad_norm": 16.925592105056882,
	"learning_rate": 4.838709677419355e-07,
	"logits/chosen": -1.0461599826812744,
	"logits/rejected": -0.9585116505622864,
	"logps/chosen": -237.54373168945312,
	"logps/rejected": -275.940673828125,
	"loss": 0.6822,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": 0.01179418247193098,
	"rewards/margins": 0.023266470059752464,
	"rewards/rejected": -0.011472286656498909,
	"step": 30
	},
	{
	"epoch": 0.13,
	"grad_norm": 17.790603933181593,
	"learning_rate": 4.986797785768295e-07,
	"logits/chosen": -1.2466868162155151,
	"logits/rejected": -1.0099724531173706,
	"logps/chosen": -226.1925506591797,
	"logps/rejected": -308.3481750488281,
	"loss": 0.6584,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": 0.006962643004953861,
	"rewards/margins": 0.06420420855283737,
	"rewards/rejected": -0.057241566479206085,
	"step": 40
	},
	{
	"epoch": 0.16,
	"grad_norm": 18.832438856630475,
	"learning_rate": 4.941339491514909e-07,
	"logits/chosen": -1.0786056518554688,
	"logits/rejected": -0.8200371861457825,
	"logps/chosen": -250.77627563476562,
	"logps/rejected": -305.92352294921875,
	"loss": 0.5989,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.03331167623400688,
	"rewards/margins": 0.29684731364250183,
	"rewards/rejected": -0.3301590085029602,
	"step": 50
	},
	{
	"epoch": 0.2,
	"grad_norm": 26.859354757154694,
	"learning_rate": 4.864054603442063e-07,
	"logits/chosen": -0.8682538270950317,
	"logits/rejected": -0.8277397155761719,
	"logps/chosen": -281.60577392578125,
	"logps/rejected": -436.7176208496094,
	"loss": 0.5358,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.1347092092037201,
	"rewards/margins": 0.7372199296951294,
	"rewards/rejected": -0.8719291687011719,
	"step": 60
	},
	{
	"epoch": 0.23,
	"grad_norm": 19.728868151669563,
	"learning_rate": 4.755950648257788e-07,
	"logits/chosen": -0.9148917198181152,
	"logits/rejected": -0.5669609308242798,
	"logps/chosen": -303.3214416503906,
	"logps/rejected": -471.29345703125,
	"loss": 0.4898,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.24109110236167908,
	"rewards/margins": 1.1684527397155762,
	"rewards/rejected": -1.4095438718795776,
	"step": 70
	},
	{
	"epoch": 0.26,
	"grad_norm": 17.67886600787927,
	"learning_rate": 4.618436926341606e-07,
	"logits/chosen": -0.6920875310897827,
	"logits/rejected": -0.1917627602815628,
	"logps/chosen": -238.93624877929688,
	"logps/rejected": -427.3094177246094,
	"loss": 0.4322,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": -0.18579021096229553,
	"rewards/margins": 1.348921298980713,
	"rewards/rejected": -1.5347115993499756,
	"step": 80
	},
	{
	"epoch": 0.29,
	"grad_norm": 20.470351398393845,
	"learning_rate": 4.4533061393588276e-07,
	"logits/chosen": -0.9842801094055176,
	"logits/rejected": -0.17733868956565857,
	"logps/chosen": -269.7094421386719,
	"logps/rejected": -537.8287963867188,
	"loss": 0.4163,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": -0.2889798879623413,
	"rewards/margins": 1.93475341796875,
	"rewards/rejected": -2.223733425140381,
	"step": 90
	},
	{
	"epoch": 0.33,
	"grad_norm": 22.11813905754231,
	"learning_rate": 4.262711019652764e-07,
	"logits/chosen": -0.5012297630310059,
	"logits/rejected": -9.913742542266846e-05,
	"logps/chosen": -328.4926452636719,
	"logps/rejected": -584.0737915039062,
	"loss": 0.3672,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -0.3633125424385071,
	"rewards/margins": 2.0779290199279785,
	"rewards/rejected": -2.4412412643432617,
	"step": 100
	},
	{
	"epoch": 0.33,
	"eval_logits/chosen": -1.7892314195632935,
	"eval_logits/rejected": 0.012374745681881905,
	"eval_logps/chosen": -325.3137512207031,
	"eval_logps/rejected": -259.1305847167969,
	"eval_loss": 0.5652258396148682,
	"eval_rewards/accuracies": 0.75,
	"eval_rewards/chosen": -0.27210739254951477,
	"eval_rewards/margins": 0.3719515800476074,
	"eval_rewards/rejected": -0.6440589427947998,
	"eval_runtime": 62.3299,
	"eval_samples_per_second": 9.113,
	"eval_steps_per_second": 0.289,
	"step": 100
	},
	{
	"epoch": 0.36,
	"grad_norm": 27.459187382986496,
	"learning_rate": 4.0491362660864523e-07,
	"logits/chosen": -0.4417840838432312,
	"logits/rejected": 0.22044658660888672,
	"logps/chosen": -216.5067138671875,
	"logps/rejected": -570.1358032226562,
	"loss": 0.3445,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": -0.2089937925338745,
	"rewards/margins": 2.619229555130005,
	"rewards/rejected": -2.82822322845459,
	"step": 110
	},
	{
	"epoch": 0.39,
	"grad_norm": 22.673980281488344,
	"learning_rate": 3.8153661521931215e-07,
	"logits/chosen": -0.25229763984680176,
	"logits/rejected": 0.42893147468566895,
	"logps/chosen": -287.91815185546875,
	"logps/rejected": -586.4707641601562,
	"loss": 0.3152,
	"rewards/accuracies": 0.893750011920929,
	"rewards/chosen": -0.3577408790588379,
	"rewards/margins": 2.5164005756378174,
	"rewards/rejected": -2.8741414546966553,
	"step": 120
	},
	{
	"epoch": 0.42,
	"grad_norm": 22.548222714710292,
	"learning_rate": 3.5644482289126813e-07,
	"logits/chosen": -0.36232301592826843,
	"logits/rejected": 0.7560933828353882,
	"logps/chosen": -271.9062805175781,
	"logps/rejected": -581.7931518554688,
	"loss": 0.3195,
	"rewards/accuracies": 0.956250011920929,
	"rewards/chosen": -0.2464122772216797,
	"rewards/margins": 2.863015651702881,
	"rewards/rejected": -3.1094279289245605,
	"step": 130
	},
	{
	"epoch": 0.46,
	"grad_norm": 23.598569359547252,
	"learning_rate": 3.299653595104602e-07,
	"logits/chosen": 0.2891393005847931,
	"logits/rejected": 1.1849420070648193,
	"logps/chosen": -278.166748046875,
	"logps/rejected": -591.746337890625,
	"loss": 0.2842,
	"rewards/accuracies": 0.956250011920929,
	"rewards/chosen": -0.2587340772151947,
	"rewards/margins": 2.8643851280212402,
	"rewards/rejected": -3.123119354248047,
	"step": 140
	},
	{
	"epoch": 0.49,
	"grad_norm": 21.260621719260254,
	"learning_rate": 3.024434253771773e-07,
	"logits/chosen": -0.052896756678819656,
	"logits/rejected": 1.054487943649292,
	"logps/chosen": -255.85391235351562,
	"logps/rejected": -814.2733154296875,
	"loss": 0.2754,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": -0.3424001932144165,
	"rewards/margins": 4.599584579467773,
	"rewards/rejected": -4.9419846534729,
	"step": 150
	},
	{
	"epoch": 0.52,
	"grad_norm": 24.166711565305622,
	"learning_rate": 2.7423781099222037e-07,
	"logits/chosen": -0.3343699276447296,
	"logits/rejected": 1.2091766595840454,
	"logps/chosen": -241.1891326904297,
	"logps/rejected": -667.7901000976562,
	"loss": 0.2519,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -0.1985635608434677,
	"rewards/margins": 3.7136471271514893,
	"rewards/rejected": -3.912210464477539,
	"step": 160
	},
	{
	"epoch": 0.56,
	"grad_norm": 47.56416189863626,
	"learning_rate": 2.4571621967402515e-07,
	"logits/chosen": -0.14796659350395203,
	"logits/rejected": 0.9326593279838562,
	"logps/chosen": -231.9830322265625,
	"logps/rejected": -778.2721557617188,
	"loss": 0.2593,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": -0.2619406580924988,
	"rewards/margins": 4.371499538421631,
	"rewards/rejected": -4.633440017700195,
	"step": 170
	},
	{
	"epoch": 0.59,
	"grad_norm": 23.682645133331448,
	"learning_rate": 2.1725047398357676e-07,
	"logits/chosen": 0.07808978855609894,
	"logits/rejected": 0.8551836013793945,
	"logps/chosen": -299.97503662109375,
	"logps/rejected": -720.2726440429688,
	"loss": 0.2309,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -0.3632424473762512,
	"rewards/margins": 3.9580280780792236,
	"rewards/rejected": -4.321269989013672,
	"step": 180
	},
	{
	"epoch": 0.62,
	"grad_norm": 24.593709800613684,
	"learning_rate": 1.892116684486976e-07,
	"logits/chosen": -0.4507158398628235,
	"logits/rejected": 1.0840203762054443,
	"logps/chosen": -231.7598114013672,
	"logps/rejected": -695.33837890625,
	"loss": 0.2105,
	"rewards/accuracies": 0.9624999761581421,
	"rewards/chosen": -0.3032680153846741,
	"rewards/margins": 4.107699871063232,
	"rewards/rejected": -4.410967826843262,
	"step": 190
	},
	{
	"epoch": 0.65,
	"grad_norm": 26.182421304771378,
	"learning_rate": 1.619653317793613e-07,
	"logits/chosen": -0.4781159460544586,
	"logits/rejected": 1.3689903020858765,
	"logps/chosen": -250.3883819580078,
	"logps/rejected": -800.0301513671875,
	"loss": 0.2495,
	"rewards/accuracies": 0.9624999761581421,
	"rewards/chosen": -0.2692957818508148,
	"rewards/margins": 4.869724750518799,
	"rewards/rejected": -5.139020919799805,
	"step": 200
	},
	{
	"epoch": 0.65,
	"eval_logits/chosen": -1.4423691034317017,
	"eval_logits/rejected": 0.8730748295783997,
	"eval_logps/chosen": -366.8614196777344,
	"eval_logps/rejected": -347.8152160644531,
	"eval_loss": 0.5144294500350952,
	"eval_rewards/accuracies": 0.7152777910232544,
	"eval_rewards/chosen": -0.6875841617584229,
	"eval_rewards/margins": 0.8433213233947754,
	"eval_rewards/rejected": -1.5309053659439087,
	"eval_runtime": 61.5529,
	"eval_samples_per_second": 9.228,
	"eval_steps_per_second": 0.292,
	"step": 200
	},
	{
	"epoch": 0.69,
	"grad_norm": 26.71444019699555,
	"learning_rate": 1.3586666164195438e-07,
	"logits/chosen": -0.11332446336746216,
	"logits/rejected": 1.1528918743133545,
	"logps/chosen": -242.18594360351562,
	"logps/rejected": -730.3687744140625,
	"loss": 0.2355,
	"rewards/accuracies": 0.9624999761581421,
	"rewards/chosen": -0.17774315178394318,
	"rewards/margins": 4.097687721252441,
	"rewards/rejected": -4.275431156158447,
	"step": 210
	},
	{
	"epoch": 0.72,
	"grad_norm": 18.78114156072228,
	"learning_rate": 1.1125589411448994e-07,
	"logits/chosen": -0.16574744880199432,
	"logits/rejected": 0.8906081914901733,
	"logps/chosen": -257.7942810058594,
	"logps/rejected": -799.7039794921875,
	"loss": 0.2147,
	"rewards/accuracies": 0.9624999761581421,
	"rewards/chosen": -0.10207457840442657,
	"rewards/margins": 4.533341407775879,
	"rewards/rejected": -4.635416507720947,
	"step": 220
	},
	{
	"epoch": 0.75,
	"grad_norm": 25.01487938388404,
	"learning_rate": 8.845386818900646e-08,
	"logits/chosen": -0.45102643966674805,
	"logits/rejected": 0.8137510418891907,
	"logps/chosen": -249.04348754882812,
	"logps/rejected": -713.5521240234375,
	"loss": 0.1934,
	"rewards/accuracies": 0.96875,
	"rewards/chosen": -0.15099892020225525,
	"rewards/margins": 4.111520290374756,
	"rewards/rejected": -4.262519359588623,
	"step": 230
	},
	{
	"epoch": 0.78,
	"grad_norm": 30.245012228652286,
	"learning_rate": 6.775784314464716e-08,
	"logits/chosen": -0.3785732388496399,
	"logits/rejected": 1.2067172527313232,
	"logps/chosen": -247.9203338623047,
	"logps/rejected": -789.9756469726562,
	"loss": 0.2121,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": -0.31377214193344116,
	"rewards/margins": 4.594644546508789,
	"rewards/rejected": -4.908417701721191,
	"step": 240
	},
	{
	"epoch": 0.82,
	"grad_norm": 16.348157142642147,
	"learning_rate": 4.943762331835621e-08,
	"logits/chosen": -0.47478023171424866,
	"logits/rejected": 1.148115873336792,
	"logps/chosen": -280.11419677734375,
	"logps/rejected": -811.0616455078125,
	"loss": 0.1801,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": -0.2764636278152466,
	"rewards/margins": 4.763599395751953,
	"rewards/rejected": -5.040062427520752,
	"step": 250
	},
	{
	"epoch": 0.85,
	"grad_norm": 35.57913356579002,
	"learning_rate": 3.373204079273473e-08,
	"logits/chosen": -0.3408397138118744,
	"logits/rejected": 1.2824140787124634,
	"logps/chosen": -244.1248321533203,
	"logps/rejected": -754.9166259765625,
	"loss": 0.2096,
	"rewards/accuracies": 0.987500011920929,
	"rewards/chosen": -0.23486094176769257,
	"rewards/margins": 4.0956854820251465,
	"rewards/rejected": -4.3305463790893555,
	"step": 260
	},
	{
	"epoch": 0.88,
	"grad_norm": 22.72907844280726,
	"learning_rate": 2.084584185459709e-08,
	"logits/chosen": -0.27476102113723755,
	"logits/rejected": 1.213181495666504,
	"logps/chosen": -285.0547790527344,
	"logps/rejected": -713.6915283203125,
	"loss": 0.1874,
	"rewards/accuracies": 0.96875,
	"rewards/chosen": -0.21095514297485352,
	"rewards/margins": 4.196396827697754,
	"rewards/rejected": -4.407351493835449,
	"step": 270
	},
	{
	"epoch": 0.92,
	"grad_norm": 22.905550437426676,
	"learning_rate": 1.0947017814003257e-08,
	"logits/chosen": 0.07453560829162598,
	"logits/rejected": 1.153464913368225,
	"logps/chosen": -254.3527374267578,
	"logps/rejected": -810.6804809570312,
	"loss": 0.1795,
	"rewards/accuracies": 0.9750000238418579,
	"rewards/chosen": -0.2759082615375519,
	"rewards/margins": 4.727480411529541,
	"rewards/rejected": -5.003388404846191,
	"step": 280
	},
	{
	"epoch": 0.95,
	"grad_norm": 27.524134609799987,
	"learning_rate": 4.164614980622677e-09,
	"logits/chosen": -0.3413197100162506,
	"logits/rejected": 1.2102278470993042,
	"logps/chosen": -236.2258758544922,
	"logps/rejected": -899.1121215820312,
	"loss": 0.1885,
	"rewards/accuracies": 0.96875,
	"rewards/chosen": -0.2925792336463928,
	"rewards/margins": 5.496912956237793,
	"rewards/rejected": -5.789492130279541,
	"step": 290
	},
	{
	"epoch": 0.98,
	"grad_norm": 20.178235335586955,
	"learning_rate": 5.870523477368439e-10,
	"logits/chosen": 0.39968985319137573,
	"logits/rejected": 0.5744360089302063,
	"logps/chosen": -251.2977752685547,
	"logps/rejected": -803.5077514648438,
	"loss": 0.1708,
	"rewards/accuracies": 0.981249988079071,
	"rewards/chosen": -0.24827781319618225,
	"rewards/margins": 4.899833679199219,
	"rewards/rejected": -5.148111343383789,
	"step": 300
	},
	{
	"epoch": 0.98,
	"eval_logits/chosen": -1.3915222883224487,
	"eval_logits/rejected": 1.0055533647537231,
	"eval_logps/chosen": -385.5208435058594,
	"eval_logps/rejected": -374.23699951171875,
	"eval_loss": 0.534546434879303,
	"eval_rewards/accuracies": 0.6527777910232544,
	"eval_rewards/chosen": -0.8741780519485474,
	"eval_rewards/margins": 0.9209451675415039,
	"eval_rewards/rejected": -1.7951232194900513,
	"eval_runtime": 60.8637,
	"eval_samples_per_second": 9.332,
	"eval_steps_per_second": 0.296,
	"step": 300
	},
	{
	"epoch": 1.0,
	"step": 306,
	"total_flos": 0.0,
	"train_loss": 0.004050073670405967,
	"train_runtime": 90.6565,
	"train_samples_per_second": 215.892,
	"train_steps_per_second": 3.375
	}
	],
	"logging_steps": 10,
	"max_steps": 306,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}