sfulay
/

zephyr-7b-dpo-full-prometheus_consistent-reward-scale-1

alignment-handbook

Generated from Trainer

Model card Files Files and versions Community

zephyr-7b-dpo-full-prometheus_consistent-reward-scale-1 / trainer_state.json

Commit History

Model save

a773699
verified

sfulay commited on Aug 28, 2024

Model save

72943b8
verified

sfulay commited on Aug 27, 2024