RedaAlami
/

zephyr-7b-dpo-qlora

alignment-handbook

Generated from Trainer

4-bit precision

Model card Files Files and versions Metrics Training metrics Community

zephyr-7b-dpo-qlora / eval_results.json

RedaAlami's picture

End of training

7d0f0dc verified 2 months ago

history blame contribute delete

573 Bytes

	{
	"epoch": 1.0,
	"eval_logits/chosen": 2.2557647228240967,
	"eval_logits/rejected": 2.0469555854797363,
	"eval_logps/chosen": -496.4129333496094,
	"eval_logps/rejected": -1080.7012939453125,
	"eval_loss": 0.029871011152863503,
	"eval_rewards/accuracies": 0.9305970072746277,
	"eval_rewards/chosen": -4.636161804199219,
	"eval_rewards/margins": 5.8116912841796875,
	"eval_rewards/rejected": -10.44785213470459,
	"eval_runtime": 215.9125,
	"eval_samples": 21417,
	"eval_samples_per_second": 99.193,
	"eval_steps_per_second": 1.552
	}