CharlesLi
/

OpenELM-1_1B-DPO-full-max-10-reward

Text Generation

alignment-handbook

Generated from Trainer

Model card Files Files and versions Metrics Training metrics Community

OpenELM-1_1B-DPO-full-max-10-reward

Commit History

Model save

c70833e
verified

CharlesLi commited on Oct 7, 2024

Model save

7a8c06f
verified

CharlesLi commited on Oct 6, 2024

Model save

6676f5b
verified

CharlesLi commited on Oct 5, 2024

Model save

020f91b
verified

CharlesLi commited on Sep 16, 2024

initial commit

ccf6fe0
verified

CharlesLi commited on Sep 16, 2024