gpt-oss-20b-lcb-all-evolved-problems-run01-step100

openai/gpt-oss-20b fine-tuned with RL on LiveCodeBench-style code problems (Tinker recipe code_rl), exported as a full bfloat16 model (LoRA adapter merged into the base, MXFP4 experts dequantized to bf16).

Training run: code_rl_lcb_gpt-oss-20b-24k-with-all-evovled-problems-lr1e-5-run01
Checkpoint: step 100
Base model: openai/gpt-oss-20b

Usage

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("BenchEvolver/gpt-oss-20b-lcb-all-evolved-problems-run01-step100", torch_dtype="bfloat16", device_map="auto")
tok = AutoTokenizer.from_pretrained("BenchEvolver/gpt-oss-20b-lcb-all-evolved-problems-run01-step100")

Or serve with SGLang:

python -m sglang.launch_server --model-path BenchEvolver/gpt-oss-20b-lcb-all-evolved-problems-run01-step100 --tp 1 --port 30000

Downloads last month: 14

Safetensors

Model size

21B params

Tensor type

BF16

Video Preview

Reinforcement Learning

Model tree for BenchEvolver/gpt-oss-20b-lcb-all-evolved-problems-run01-step100

Base model

openai/gpt-oss-20b

Finetuned

(527)

this model