sfulay
/

zephyr-7b-dpo-full-prometheus_consistent-reward-scale-1

alignment-handbook

Generated from Trainer

Model card Files Files and versions Community

zephyr-7b-dpo-full-prometheus_consistent-reward-scale-1 / model-00001-of-00003.safetensors

Commit History

Model save

a773699
verified

sfulay commited on Aug 28, 2024

Training in progress, step 437

12b54d1
verified

sfulay commited on Aug 27, 2024

Training in progress, step 400

61d5f9f
verified

sfulay commited on Aug 27, 2024

Training in progress, step 300

7a492d2
verified

sfulay commited on Aug 27, 2024

Training in progress, step 200

b25f522
verified

sfulay commited on Aug 27, 2024

Training in progress, step 100

d5786cd
verified

sfulay commited on Aug 27, 2024