ale-bay
/

zephyr-7b-dpo-qlora

alignment-handbook

Generated from Trainer

4-bit precision

Model card Files Files and versions Metrics Training metrics Community

zephyr-7b-dpo-qlora / all_results.json

ale-bay's picture

End of training

fdadbc0 verified 8 months ago

735 Bytes

	{
	"epoch": 1.0,
	"eval_logits/chosen": 2.2971765995025635,
	"eval_logits/rejected": 2.509765625,
	"eval_logps/chosen": -516.2817993164062,
	"eval_logps/rejected": -600.310302734375,
	"eval_loss": 0.4919675290584564,
	"eval_rewards/accuracies": 0.7559999823570251,
	"eval_rewards/chosen": -2.5097556114196777,
	"eval_rewards/margins": 1.0807288885116577,
	"eval_rewards/rejected": -3.590484380722046,
	"eval_runtime": 449.3054,
	"eval_samples": 2000,
	"eval_samples_per_second": 4.451,
	"eval_steps_per_second": 0.278,
	"train_loss": 0.528951391499704,
	"train_runtime": 37787.7404,
	"train_samples": 61135,
	"train_samples_per_second": 1.618,
	"train_steps_per_second": 0.051
	}