sfulay
/

zephyr-7b-dpo-full-prometheus_consistent-reward-scale-01

alignment-handbook

Generated from Trainer

Model card Files Files and versions Community

zephyr-7b-dpo-full-prometheus_consistent-reward-scale-01 / model-00001-of-00003.safetensors

Commit History

Model save

ceeb09a
verified

sfulay commited on Aug 28, 2024

Training in progress, step 437

35a85d2
verified

sfulay commited on Aug 27, 2024

Training in progress, step 400

3ee1101
verified

sfulay commited on Aug 27, 2024

Training in progress, step 300

9406f77
verified

sfulay commited on Aug 27, 2024

Training in progress, step 200

37cff7e
verified

sfulay commited on Aug 27, 2024

Training in progress, step 100

83a17d0
verified

sfulay commited on Aug 27, 2024