rasdani
/

qwen2-math-1_5b-step-dpo

Text Generation

alignment-handbook

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

qwen2-math-1_5b-step-dpo / model.safetensors

Commit History

Training in progress, step 1344

807331f
verified

rasdani commited on Aug 28

Training in progress, step 1200

9085790
verified

rasdani commited on Aug 28

Training in progress, step 800

3b28871
verified

rasdani commited on Aug 28

Training in progress, step 400

0679085
verified

rasdani commited on Aug 28