tzwilliam0
/

maxmin-dpo-init-kl-coef-0.1-fix-lora-dongnan

Reinforcement Learning

Inference Endpoints

Model card Files Files and versions Community

maxmin-dpo-init-kl-coef-0.1-fix-lora-dongnan

Commit History

new upload

74ec05f

v-guidongnan commited on 22 days ago

Upload tokenizer

d3ae02f
verified

tzwilliam0 commited on 22 days ago

Upload model

6b2d152
verified

tzwilliam0 commited on 22 days ago

initial commit

9c4c33a
verified

tzwilliam0 commited on 22 days ago