tzwilliam0
/

maxmin-dpo-init-kl-coef-0.5-fix-lora-dongnan

Reinforcement Learning

Inference Endpoints

Model card Files Files and versions Community

maxmin-dpo-init-kl-coef-0.5-fix-lora-dongnan / tokenizer.json

Commit History

Upload tokenizer

4bc6a39
verified

tzwilliam0 commited on 8 days ago