zephyr-ds / trainer_state.json

Model save

ccb0f19 verified 11 months ago

6.81 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9997382884061764,
	"eval_steps": 100,
	"global_step": 955,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 5.208333333333333e-09,
	"logits/chosen": -2.899709463119507,
	"logits/rejected": -2.879509687423706,
	"logps/chosen": -314.8815612792969,
	"logps/rejected": -239.785888671875,
	"loss": 0.6931,
	"pred_label": 0.0,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1,
	"use_label": 18.0
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.976717112922002e-07,
	"logits/chosen": -2.8282251358032227,
	"logits/rejected": -2.8269264698028564,
	"logps/chosen": -285.5703430175781,
	"logps/rejected": -267.9831237792969,
	"loss": 0.6805,
	"pred_label": 479.7752380371094,
	"rewards/accuracies": 0.5012626051902771,
	"rewards/chosen": 0.0007524320390075445,
	"rewards/margins": 0.0014539315598085523,
	"rewards/rejected": -0.0007014995790086687,
	"step": 100,
	"use_label": 1138.2247314453125
	},
	{
	"epoch": 0.21,
	"learning_rate": 4.3946449359720607e-07,
	"logits/chosen": -2.829744338989258,
	"logits/rejected": -2.8234996795654297,
	"logps/chosen": -283.5379333496094,
	"logps/rejected": -264.45965576171875,
	"loss": 0.6797,
	"pred_label": 1464.762451171875,
	"rewards/accuracies": 0.5268750190734863,
	"rewards/chosen": 0.0027550552040338516,
	"rewards/margins": 0.004276593215763569,
	"rewards/rejected": -0.0015215380117297173,
	"step": 200,
	"use_label": 3337.237548828125
	},
	{
	"epoch": 0.31,
	"learning_rate": 3.812572759022118e-07,
	"logits/chosen": -2.822391986846924,
	"logits/rejected": -2.821011543273926,
	"logps/chosen": -290.09552001953125,
	"logps/rejected": -260.20050048828125,
	"loss": 0.678,
	"pred_label": 2522.33740234375,
	"rewards/accuracies": 0.546875,
	"rewards/chosen": 0.004526687320321798,
	"rewards/margins": 0.008910334669053555,
	"rewards/rejected": -0.004383646883070469,
	"step": 300,
	"use_label": 5479.66259765625
	},
	{
	"epoch": 0.42,
	"learning_rate": 3.230500582072177e-07,
	"logits/chosen": -2.8350696563720703,
	"logits/rejected": -2.8237721920013428,
	"logps/chosen": -284.8573303222656,
	"logps/rejected": -260.8428039550781,
	"loss": 0.6752,
	"pred_label": 3636.47509765625,
	"rewards/accuracies": 0.5778124928474426,
	"rewards/chosen": 0.00710176769644022,
	"rewards/margins": 0.013848603703081608,
	"rewards/rejected": -0.006746836472302675,
	"step": 400,
	"use_label": 7565.52490234375
	},
	{
	"epoch": 0.52,
	"learning_rate": 2.648428405122235e-07,
	"logits/chosen": -2.8218374252319336,
	"logits/rejected": -2.810873508453369,
	"logps/chosen": -281.2003173828125,
	"logps/rejected": -257.1551818847656,
	"loss": 0.6707,
	"pred_label": 4911.896484375,
	"rewards/accuracies": 0.5731250047683716,
	"rewards/chosen": 0.008172390051186085,
	"rewards/margins": 0.017216255888342857,
	"rewards/rejected": -0.009043867699801922,
	"step": 500,
	"use_label": 9490.103515625
	},
	{
	"epoch": 0.63,
	"learning_rate": 2.0663562281722933e-07,
	"logits/chosen": -2.8341524600982666,
	"logits/rejected": -2.8230907917022705,
	"logps/chosen": -284.7864685058594,
	"logps/rejected": -262.0230712890625,
	"loss": 0.6665,
	"pred_label": 6349.55859375,
	"rewards/accuracies": 0.6025000214576721,
	"rewards/chosen": 0.012129506096243858,
	"rewards/margins": 0.025582188740372658,
	"rewards/rejected": -0.0134526826441288,
	"step": 600,
	"use_label": 11252.44140625
	},
	{
	"epoch": 0.73,
	"learning_rate": 1.4842840512223514e-07,
	"logits/chosen": -2.8274898529052734,
	"logits/rejected": -2.811511516571045,
	"logps/chosen": -282.0050048828125,
	"logps/rejected": -252.4735565185547,
	"loss": 0.6639,
	"pred_label": 7854.15869140625,
	"rewards/accuracies": 0.6112499833106995,
	"rewards/chosen": 0.013030249625444412,
	"rewards/margins": 0.026329634711146355,
	"rewards/rejected": -0.013299385085701942,
	"step": 700,
	"use_label": 12947.8408203125
	},
	{
	"epoch": 0.84,
	"learning_rate": 9.022118742724097e-08,
	"logits/chosen": -2.832928419113159,
	"logits/rejected": -2.8318238258361816,
	"logps/chosen": -285.62213134765625,
	"logps/rejected": -259.8959045410156,
	"loss": 0.662,
	"pred_label": 9441.02734375,
	"rewards/accuracies": 0.6253125071525574,
	"rewards/chosen": 0.01489347591996193,
	"rewards/margins": 0.030955424532294273,
	"rewards/rejected": -0.016061950474977493,
	"step": 800,
	"use_label": 14560.97265625
	},
	{
	"epoch": 0.94,
	"learning_rate": 3.20139697322468e-08,
	"logits/chosen": -2.824517250061035,
	"logits/rejected": -2.830662250518799,
	"logps/chosen": -276.052490234375,
	"logps/rejected": -262.5692138671875,
	"loss": 0.6628,
	"pred_label": 10994.255859375,
	"rewards/accuracies": 0.6143749952316284,
	"rewards/chosen": 0.012237527407705784,
	"rewards/margins": 0.026263901963829994,
	"rewards/rejected": -0.01402637455612421,
	"step": 900,
	"use_label": 16207.744140625
	},
	{
	"epoch": 1.0,
	"eval_logits/chosen": -2.841262102127075,
	"eval_logits/rejected": -2.8343887329101562,
	"eval_logps/chosen": -281.85919189453125,
	"eval_logps/rejected": -262.4202880859375,
	"eval_loss": 0.6618225574493408,
	"eval_pred_label": 12855.98046875,
	"eval_rewards/accuracies": 0.6150000095367432,
	"eval_rewards/chosen": 0.011613711714744568,
	"eval_rewards/margins": 0.02489962987601757,
	"eval_rewards/rejected": -0.013285920023918152,
	"eval_runtime": 826.7995,
	"eval_samples_per_second": 2.419,
	"eval_steps_per_second": 0.302,
	"eval_use_label": 18206.01953125,
	"step": 955
	},
	{
	"epoch": 1.0,
	"step": 955,
	"total_flos": 0.0,
	"train_loss": 0.6705795382954063,
	"train_runtime": 45840.6595,
	"train_samples_per_second": 1.334,
	"train_steps_per_second": 0.021
	}
	],
	"logging_steps": 100,
	"max_steps": 955,
	"num_train_epochs": 1,
	"save_steps": 10,
	"total_flos": 0.0,
	"trial_name": null,
	"trial_params": null
	}