ale-bay
/

zephyr-7b-dpo-qlora

alignment-handbook

Generated from Trainer

4-bit precision

Model card Files Files and versions Metrics Training metrics Community

zephyr-7b-dpo-qlora / eval_results.json

ale-bay's picture

End of training

fdadbc0 verified 8 months ago

561 Bytes

	{
	"epoch": 1.0,
	"eval_logits/chosen": 2.2971765995025635,
	"eval_logits/rejected": 2.509765625,
	"eval_logps/chosen": -516.2817993164062,
	"eval_logps/rejected": -600.310302734375,
	"eval_loss": 0.4919675290584564,
	"eval_rewards/accuracies": 0.7559999823570251,
	"eval_rewards/chosen": -2.5097556114196777,
	"eval_rewards/margins": 1.0807288885116577,
	"eval_rewards/rejected": -3.590484380722046,
	"eval_runtime": 449.3054,
	"eval_samples": 2000,
	"eval_samples_per_second": 4.451,
	"eval_steps_per_second": 0.278
	}