XueyingJia
/

pythia-1b-online-dpo-HH-merge-rewardmodel-duplicated

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

pythia-1b-online-dpo-HH-merge-rewardmodel-duplicated

1 contributor

History: 1 commit

XueyingJia's picture

initial commit

ac24f5b verified 19 days ago

.gitattributes

1.52 kB

initial commit 19 days ago