pythia-410m-deduped-SimPOW-0 / trainer_state.json

Upload folder using huggingface_hub

adabf08 verified 8 months ago

27 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 1,
	"global_step": 26,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"abs_diff": 0.4453125,
	"all_logps_1": -644.9681396484375,
	"all_logps_1_values": -644.9680786132812,
	"all_logps_2": 424.9236145019531,
	"all_logps_2_values": 424.9236145019531,
	"epoch": 0.038461538461538464,
	"grad_norm": 20.744102687471287,
	"learning_rate": 3.333333333333333e-07,
	"logits/chosen": 5.625,
	"logits/rejected": 5.625,
	"logps/chosen": -2.03125,
	"logps/rejected": -1.9375,
	"loss": 1.9612,
	"original_losses": 2.0625,
	"rewards/accuracies": 0.4270833432674408,
	"rewards/chosen": -5.0625,
	"rewards/margins": -0.2421875,
	"rewards/rejected": -4.84375,
	"step": 1,
	"weight": 1.0
	},
	{
	"epoch": 0.038461538461538464,
	"eval_abs_diff": 0.44921875,
	"eval_all_logps_1": -657.8338623046875,
	"eval_all_logps_1_values": -657.8338012695312,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.96875,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7894011735916138,
	"eval_original_losses": 1.8125,
	"eval_rewards/accuracies": 0.4404762089252472,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.189453125,
	"eval_rewards/rejected": -5.09375,
	"eval_runtime": 18.7618,
	"eval_samples_per_second": 104.521,
	"eval_steps_per_second": 0.373,
	"eval_weight": 1.0,
	"step": 1
	},
	{
	"epoch": 0.07692307692307693,
	"eval_abs_diff": 0.453125,
	"eval_all_logps_1": -657.5560913085938,
	"eval_all_logps_1_values": -657.5560302734375,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.6875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7886760234832764,
	"eval_original_losses": 1.8125,
	"eval_rewards/accuracies": 0.4444444477558136,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.189453125,
	"eval_rewards/rejected": -5.09375,
	"eval_runtime": 7.6106,
	"eval_samples_per_second": 257.667,
	"eval_steps_per_second": 0.92,
	"eval_weight": 1.0,
	"step": 2
	},
	{
	"epoch": 0.11538461538461539,
	"eval_abs_diff": 0.451171875,
	"eval_all_logps_1": -657.2574462890625,
	"eval_all_logps_1_values": -657.2574462890625,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.96875,
	"eval_logps/rejected": -2.046875,
	"eval_loss": 1.7886680364608765,
	"eval_original_losses": 1.8203125,
	"eval_rewards/accuracies": 0.4444444477558136,
	"eval_rewards/chosen": -4.9375,
	"eval_rewards/margins": 0.1884765625,
	"eval_rewards/rejected": -5.125,
	"eval_runtime": 8.5255,
	"eval_samples_per_second": 230.016,
	"eval_steps_per_second": 0.821,
	"eval_weight": 1.0,
	"step": 3
	},
	{
	"epoch": 0.15384615384615385,
	"eval_abs_diff": 0.451171875,
	"eval_all_logps_1": -657.5513916015625,
	"eval_all_logps_1_values": -657.5513305664062,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.96875,
	"eval_logps/rejected": -2.046875,
	"eval_loss": 1.789082407951355,
	"eval_original_losses": 1.8125,
	"eval_rewards/accuracies": 0.4365079700946808,
	"eval_rewards/chosen": -4.9375,
	"eval_rewards/margins": 0.1806640625,
	"eval_rewards/rejected": -5.09375,
	"eval_runtime": 7.6165,
	"eval_samples_per_second": 257.468,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 4
	},
	{
	"abs_diff": 0.466796875,
	"all_logps_1": -640.5847778320312,
	"all_logps_1_values": -640.584716796875,
	"all_logps_2": 413.3194274902344,
	"all_logps_2_values": 413.3194580078125,
	"epoch": 0.19230769230769232,
	"grad_norm": 21.578765352244158,
	"learning_rate": 9.814586436738997e-07,
	"logits/chosen": 5.6875,
	"logits/rejected": 5.6875,
	"logps/chosen": -1.9765625,
	"logps/rejected": -2.0,
	"loss": 1.868,
	"original_losses": 1.9140625,
	"rewards/accuracies": 0.4366319179534912,
	"rewards/chosen": -4.9375,
	"rewards/margins": 0.0712890625,
	"rewards/rejected": -5.0,
	"step": 5,
	"weight": 1.0
	},
	{
	"epoch": 0.19230769230769232,
	"eval_abs_diff": 0.447265625,
	"eval_all_logps_1": -656.76513671875,
	"eval_all_logps_1_values": -656.76513671875,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.788102388381958,
	"eval_original_losses": 1.8125,
	"eval_rewards/accuracies": 0.432539701461792,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.181640625,
	"eval_rewards/rejected": -5.09375,
	"eval_runtime": 7.6214,
	"eval_samples_per_second": 257.303,
	"eval_steps_per_second": 0.918,
	"eval_weight": 1.0,
	"step": 5
	},
	{
	"epoch": 0.23076923076923078,
	"eval_abs_diff": 0.451171875,
	"eval_all_logps_1": -658.1024169921875,
	"eval_all_logps_1_values": -658.1024169921875,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9765625,
	"eval_logps/rejected": -2.046875,
	"eval_loss": 1.7911142110824585,
	"eval_original_losses": 1.8203125,
	"eval_rewards/accuracies": 0.4523809254169464,
	"eval_rewards/chosen": -4.9375,
	"eval_rewards/margins": 0.1669921875,
	"eval_rewards/rejected": -5.09375,
	"eval_runtime": 7.6157,
	"eval_samples_per_second": 257.493,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 6
	},
	{
	"epoch": 0.2692307692307692,
	"eval_abs_diff": 0.451171875,
	"eval_all_logps_1": -657.3370361328125,
	"eval_all_logps_1_values": -657.3370361328125,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7869629859924316,
	"eval_original_losses": 1.8125,
	"eval_rewards/accuracies": 0.44841268658638,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.1845703125,
	"eval_rewards/rejected": -5.09375,
	"eval_runtime": 7.6132,
	"eval_samples_per_second": 257.579,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 7
	},
	{
	"epoch": 0.3076923076923077,
	"eval_abs_diff": 0.447265625,
	"eval_all_logps_1": -657.35888671875,
	"eval_all_logps_1_values": -657.35888671875,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.6875,
	"eval_logits/rejected": 5.65625,
	"eval_logps/chosen": -1.96875,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7835049629211426,
	"eval_original_losses": 1.8203125,
	"eval_rewards/accuracies": 0.4404762089252472,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.1728515625,
	"eval_rewards/rejected": -5.09375,
	"eval_runtime": 7.6173,
	"eval_samples_per_second": 257.44,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 8
	},
	{
	"epoch": 0.34615384615384615,
	"eval_abs_diff": 0.4453125,
	"eval_all_logps_1": -657.4702758789062,
	"eval_all_logps_1_values": -657.47021484375,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.785959005355835,
	"eval_original_losses": 1.8125,
	"eval_rewards/accuracies": 0.4404761791229248,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.185546875,
	"eval_rewards/rejected": -5.09375,
	"eval_runtime": 7.6175,
	"eval_samples_per_second": 257.433,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 9
	},
	{
	"abs_diff": 0.427734375,
	"all_logps_1": -622.0468139648438,
	"all_logps_1_values": -622.0468139648438,
	"all_logps_2": 399.6798400878906,
	"all_logps_2_values": 399.67987060546875,
	"epoch": 0.38461538461538464,
	"grad_norm": 18.220030847238334,
	"learning_rate": 7.883401610574336e-07,
	"logits/chosen": 5.6875,
	"logits/rejected": 5.6875,
	"logps/chosen": -1.953125,
	"logps/rejected": -1.96875,
	"loss": 1.886,
	"original_losses": 1.8671875,
	"rewards/accuracies": 0.47291669249534607,
	"rewards/chosen": -4.875,
	"rewards/margins": 0.025146484375,
	"rewards/rejected": -4.90625,
	"step": 10,
	"weight": 1.0
	},
	{
	"epoch": 0.38461538461538464,
	"eval_abs_diff": 0.4453125,
	"eval_all_logps_1": -657.2244873046875,
	"eval_all_logps_1_values": -657.2244262695312,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.789680004119873,
	"eval_original_losses": 1.8125,
	"eval_rewards/accuracies": 0.4325396716594696,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.185546875,
	"eval_rewards/rejected": -5.09375,
	"eval_runtime": 7.6199,
	"eval_samples_per_second": 257.352,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 10
	},
	{
	"epoch": 0.4230769230769231,
	"eval_abs_diff": 0.447265625,
	"eval_all_logps_1": -657.7448120117188,
	"eval_all_logps_1_values": -657.7448120117188,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.785233974456787,
	"eval_original_losses": 1.8125,
	"eval_rewards/accuracies": 0.44841268658638,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.1806640625,
	"eval_rewards/rejected": -5.09375,
	"eval_runtime": 7.6147,
	"eval_samples_per_second": 257.527,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 11
	},
	{
	"epoch": 0.46153846153846156,
	"eval_abs_diff": 0.44921875,
	"eval_all_logps_1": -657.9037475585938,
	"eval_all_logps_1_values": -657.9037475585938,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7826603651046753,
	"eval_original_losses": 1.8203125,
	"eval_rewards/accuracies": 0.4603174328804016,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.1796875,
	"eval_rewards/rejected": -5.09375,
	"eval_runtime": 7.6147,
	"eval_samples_per_second": 257.529,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 12
	},
	{
	"epoch": 0.5,
	"eval_abs_diff": 0.451171875,
	"eval_all_logps_1": -657.7488403320312,
	"eval_all_logps_1_values": -657.748779296875,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7843893766403198,
	"eval_original_losses": 1.8203125,
	"eval_rewards/accuracies": 0.4365079402923584,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.1689453125,
	"eval_rewards/rejected": -5.0625,
	"eval_runtime": 7.6141,
	"eval_samples_per_second": 257.548,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 13
	},
	{
	"epoch": 0.5384615384615384,
	"eval_abs_diff": 0.439453125,
	"eval_all_logps_1": -657.5706787109375,
	"eval_all_logps_1_values": -657.5706787109375,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.953125,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.782787799835205,
	"eval_original_losses": 1.8046875,
	"eval_rewards/accuracies": 0.4404762089252472,
	"eval_rewards/chosen": -4.875,
	"eval_rewards/margins": 0.1884765625,
	"eval_rewards/rejected": -5.0625,
	"eval_runtime": 7.6188,
	"eval_samples_per_second": 257.39,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 14
	},
	{
	"abs_diff": 0.4375,
	"all_logps_1": -654.1092529296875,
	"all_logps_1_values": -654.1092529296875,
	"all_logps_2": 426.70001220703125,
	"all_logps_2_values": 426.70001220703125,
	"epoch": 0.5769230769230769,
	"grad_norm": 20.281380041912414,
	"learning_rate": 4.6587879331766457e-07,
	"logits/chosen": 5.6875,
	"logits/rejected": 5.6875,
	"logps/chosen": -2.015625,
	"logps/rejected": -2.03125,
	"loss": 1.8572,
	"original_losses": 1.875,
	"rewards/accuracies": 0.43194445967674255,
	"rewards/chosen": -5.03125,
	"rewards/margins": 0.03857421875,
	"rewards/rejected": -5.0625,
	"step": 15,
	"weight": 1.0
	},
	{
	"epoch": 0.5769230769230769,
	"eval_abs_diff": 0.4453125,
	"eval_all_logps_1": -657.2753295898438,
	"eval_all_logps_1_values": -657.2752685546875,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.785233974456787,
	"eval_original_losses": 1.8125,
	"eval_rewards/accuracies": 0.4365079402923584,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.1767578125,
	"eval_rewards/rejected": -5.0625,
	"eval_runtime": 7.6233,
	"eval_samples_per_second": 257.239,
	"eval_steps_per_second": 0.918,
	"eval_weight": 1.0,
	"step": 15
	},
	{
	"epoch": 0.6153846153846154,
	"eval_abs_diff": 0.44140625,
	"eval_all_logps_1": -657.5228271484375,
	"eval_all_logps_1_values": -657.5228271484375,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.953125,
	"eval_logps/rejected": -2.015625,
	"eval_loss": 1.7797918319702148,
	"eval_original_losses": 1.8125,
	"eval_rewards/accuracies": 0.4246031939983368,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.1708984375,
	"eval_rewards/rejected": -5.0625,
	"eval_runtime": 7.6127,
	"eval_samples_per_second": 257.596,
	"eval_steps_per_second": 0.92,
	"eval_weight": 1.0,
	"step": 16
	},
	{
	"epoch": 0.6538461538461539,
	"eval_abs_diff": 0.44140625,
	"eval_all_logps_1": -657.8072509765625,
	"eval_all_logps_1_values": -657.8073120117188,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.953125,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7796564102172852,
	"eval_original_losses": 1.8046875,
	"eval_rewards/accuracies": 0.4484127163887024,
	"eval_rewards/chosen": -4.875,
	"eval_rewards/margins": 0.181640625,
	"eval_rewards/rejected": -5.0625,
	"eval_runtime": 7.6162,
	"eval_samples_per_second": 257.477,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 17
	},
	{
	"epoch": 0.6923076923076923,
	"eval_abs_diff": 0.4375,
	"eval_all_logps_1": -657.43701171875,
	"eval_all_logps_1_values": -657.43701171875,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7829551696777344,
	"eval_original_losses": 1.8125,
	"eval_rewards/accuracies": 0.4404762089252472,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.1630859375,
	"eval_rewards/rejected": -5.0625,
	"eval_runtime": 7.6171,
	"eval_samples_per_second": 257.447,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 18
	},
	{
	"epoch": 0.7307692307692307,
	"eval_abs_diff": 0.44140625,
	"eval_all_logps_1": -657.5411376953125,
	"eval_all_logps_1_values": -657.5411987304688,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.783098578453064,
	"eval_original_losses": 1.8046875,
	"eval_rewards/accuracies": 0.4523809552192688,
	"eval_rewards/chosen": -4.875,
	"eval_rewards/margins": 0.1787109375,
	"eval_rewards/rejected": -5.0625,
	"eval_runtime": 7.6155,
	"eval_samples_per_second": 257.501,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 19
	},
	{
	"abs_diff": 0.392578125,
	"all_logps_1": -622.8844604492188,
	"all_logps_1_values": -622.8843994140625,
	"all_logps_2": 406.131591796875,
	"all_logps_2_values": 406.131591796875,
	"epoch": 0.7692307692307693,
	"grad_norm": 25.7996031816865,
	"learning_rate": 1.5872342839067304e-07,
	"logits/chosen": 5.75,
	"logits/rejected": 5.71875,
	"logps/chosen": -1.9609375,
	"logps/rejected": -1.96875,
	"loss": 1.8374,
	"original_losses": 1.828125,
	"rewards/accuracies": 0.44930553436279297,
	"rewards/chosen": -4.90625,
	"rewards/margins": 0.0208740234375,
	"rewards/rejected": -4.9375,
	"step": 20,
	"weight": 1.0
	},
	{
	"epoch": 0.7692307692307693,
	"eval_abs_diff": 0.451171875,
	"eval_all_logps_1": -657.5830078125,
	"eval_all_logps_1_values": -657.5830688476562,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.953125,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7812340259552002,
	"eval_original_losses": 1.8046875,
	"eval_rewards/accuracies": 0.4523809552192688,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.197265625,
	"eval_rewards/rejected": -5.09375,
	"eval_runtime": 7.6104,
	"eval_samples_per_second": 257.674,
	"eval_steps_per_second": 0.92,
	"eval_weight": 1.0,
	"step": 20
	},
	{
	"epoch": 0.8076923076923077,
	"eval_abs_diff": 0.44140625,
	"eval_all_logps_1": -657.6909790039062,
	"eval_all_logps_1_values": -657.6909790039062,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7849550247192383,
	"eval_original_losses": 1.8125,
	"eval_rewards/accuracies": 0.4444444477558136,
	"eval_rewards/chosen": -4.875,
	"eval_rewards/margins": 0.171875,
	"eval_rewards/rejected": -5.0625,
	"eval_runtime": 7.6199,
	"eval_samples_per_second": 257.354,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 21
	},
	{
	"epoch": 0.8461538461538461,
	"eval_abs_diff": 0.443359375,
	"eval_all_logps_1": -657.1679077148438,
	"eval_all_logps_1_values": -657.1679077148438,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.953125,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7851064205169678,
	"eval_original_losses": 1.8046875,
	"eval_rewards/accuracies": 0.4404761791229248,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.18359375,
	"eval_rewards/rejected": -5.0625,
	"eval_runtime": 7.6179,
	"eval_samples_per_second": 257.42,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 22
	},
	{
	"epoch": 0.8846153846153846,
	"eval_abs_diff": 0.4375,
	"eval_all_logps_1": -658.0194091796875,
	"eval_all_logps_1_values": -658.0193481445312,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7782222032546997,
	"eval_original_losses": 1.8046875,
	"eval_rewards/accuracies": 0.436507910490036,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.1748046875,
	"eval_rewards/rejected": -5.0625,
	"eval_runtime": 7.6206,
	"eval_samples_per_second": 257.33,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 23
	},
	{
	"epoch": 0.9230769230769231,
	"eval_abs_diff": 0.4375,
	"eval_all_logps_1": -657.4482421875,
	"eval_all_logps_1_values": -657.4481811523438,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9609375,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7799512147903442,
	"eval_original_losses": 1.8046875,
	"eval_rewards/accuracies": 0.4523809552192688,
	"eval_rewards/chosen": -4.90625,
	"eval_rewards/margins": 0.1708984375,
	"eval_rewards/rejected": -5.0625,
	"eval_runtime": 7.6139,
	"eval_samples_per_second": 257.556,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 24
	},
	{
	"abs_diff": 0.396484375,
	"all_logps_1": -644.0272216796875,
	"all_logps_1_values": -644.0272216796875,
	"all_logps_2": 413.7660217285156,
	"all_logps_2_values": 413.7659606933594,
	"epoch": 0.9615384615384616,
	"grad_norm": 18.38859727265469,
	"learning_rate": 4.657026981834622e-09,
	"logits/chosen": 5.71875,
	"logits/rejected": 5.6875,
	"logps/chosen": -1.984375,
	"logps/rejected": -1.9609375,
	"loss": 1.8714,
	"original_losses": 1.90625,
	"rewards/accuracies": 0.4229166507720947,
	"rewards/chosen": -4.96875,
	"rewards/margins": -0.0693359375,
	"rewards/rejected": -4.90625,
	"step": 25,
	"weight": 1.0
	},
	{
	"epoch": 0.9615384615384616,
	"eval_abs_diff": 0.4375,
	"eval_all_logps_1": -657.451171875,
	"eval_all_logps_1_values": -657.4511108398438,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.953125,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.778795838356018,
	"eval_original_losses": 1.796875,
	"eval_rewards/accuracies": 0.4325396716594696,
	"eval_rewards/chosen": -4.875,
	"eval_rewards/margins": 0.181640625,
	"eval_rewards/rejected": -5.0625,
	"eval_runtime": 7.6217,
	"eval_samples_per_second": 257.293,
	"eval_steps_per_second": 0.918,
	"eval_weight": 1.0,
	"step": 25
	},
	{
	"epoch": 1.0,
	"eval_abs_diff": 0.4453125,
	"eval_all_logps_1": -656.8973388671875,
	"eval_all_logps_1_values": -656.8973388671875,
	"eval_all_logps_2": 434.6329040527344,
	"eval_all_logps_2_values": 434.6329345703125,
	"eval_logits/chosen": 5.71875,
	"eval_logits/rejected": 5.6875,
	"eval_logps/chosen": -1.9453125,
	"eval_logps/rejected": -2.03125,
	"eval_loss": 1.7800946235656738,
	"eval_original_losses": 1.796875,
	"eval_rewards/accuracies": 0.4404762089252472,
	"eval_rewards/chosen": -4.875,
	"eval_rewards/margins": 0.2001953125,
	"eval_rewards/rejected": -5.0625,
	"eval_runtime": 7.6164,
	"eval_samples_per_second": 257.472,
	"eval_steps_per_second": 0.919,
	"eval_weight": 1.0,
	"step": 26
	},
	{
	"epoch": 1.0,
	"step": 26,
	"total_flos": 0.0,
	"train_loss": 1.8681734525240385,
	"train_runtime": 997.9993,
	"train_samples_per_second": 59.996,
	"train_steps_per_second": 0.026
	}
	],
	"logging_steps": 5,
	"max_steps": 26,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 36,
	"trial_name": null,
	"trial_params": null
	}