qgallouedec
/

Qwen2-0.5B-OnlineDPO-PairRM

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Qwen2-0.5B-OnlineDPO-PairRM / model.safetensors

Commit History

Training in progress, step 885

a217b68
verified

qgallouedec HF staff commited on Oct 25

Training in progress, step 500

f6bd601
verified

qgallouedec HF staff commited on Oct 25