XueyingJia
/

pythia-1b-online-dpo-HH-merge-rewardmodel-duplicated

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

pythia-1b-online-dpo-HH-merge-rewardmodel-duplicated / .gitattributes

Commit History

initial commit

ac24f5b
verified

XueyingJia commited on 18 days ago