Spaces:

agentDebugger
/

AgentDebugger-training-v3

Running

App Files Files Community

shank commited on 10 days ago

Commit

2b1fbf3

1 Parent(s): 1128de1

Optimize for A100 80GB: 8 generations, batch 4, lr 2e-5, dense logging

Browse files

Files changed (1) hide show

training/train_grpo.py +10 -10

training/train_grpo.py CHANGED Viewed

@@ -311,7 +311,7 @@ def run_baseline(n: int = 20) -> dict:
         completion = tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)
         r = reward_fn([completion], [prompt], bug_metadata=[bug])
         rewards.append(r[0])
-        if r[0] > 0.30:
             solved += 1
     result = {"solve_rate": solved / max(len(bugs), 1), "avg_reward": sum(rewards) / max(len(rewards), 1), "rewards": rewards}
@@ -334,15 +334,15 @@ def make_dataset(step: int) -> Dataset:
 config = GRPOConfig(
     output_dir=CHECKPOINT_DIR,
     max_steps=MAX_STEPS,
-    per_device_train_batch_size=2,
-    gradient_accumulation_steps=4,
-    learning_rate=1e-5,
     lr_scheduler_type="cosine",
-    warmup_steps=20 if args.test else 50,
-    num_generations=4,
-    max_new_tokens=400,
-    temperature=0.8,
-    logging_steps=5 if args.test else 10,
     save_steps=50 if args.test else 100,
     report_to="wandb" if WANDB_API_KEY else "none",
 )
@@ -385,7 +385,7 @@ for bug in bugs:
     completion = tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)
     r = reward_fn([completion], [prompt], bug_metadata=[bug])
     post_rewards.append(r[0])
-    if r[0] > 0.30:
         post_solved += 1
 post_solve_rate = post_solved / max(len(bugs), 1)

         completion = tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)
         r = reward_fn([completion], [prompt], bug_metadata=[bug])
         rewards.append(r[0])
+        if r[0] > 0.20:   # threshold: any positive structured response counts
             solved += 1
     result = {"solve_rate": solved / max(len(bugs), 1), "avg_reward": sum(rewards) / max(len(rewards), 1), "rewards": rewards}
 config = GRPOConfig(
     output_dir=CHECKPOINT_DIR,
     max_steps=MAX_STEPS,
+    per_device_train_batch_size=4,       # A100 80GB handles 4 (was 2)
+    gradient_accumulation_steps=2,       # effective batch = 8 (same total, less accumulation lag)
+    learning_rate=2e-5,                  # slightly higher lr for faster convergence
     lr_scheduler_type="cosine",
+    warmup_steps=20 if args.test else 40,
+    num_generations=8,                   # GRPO key: more rollouts = stronger learning signal (was 4)
+    max_new_tokens=512,                  # longer responses = more complete fixes (was 400)
+    temperature=0.9,                     # slightly higher temp = more diverse rollouts for GRPO
+    logging_steps=5 if args.test else 5, # log every 5 steps for dense W&B curve
     save_steps=50 if args.test else 100,
     report_to="wandb" if WANDB_API_KEY else "none",
 )
     completion = tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)
     r = reward_fn([completion], [prompt], bug_metadata=[bug])
     post_rewards.append(r[0])
+    if r[0] > 0.20:
         post_solved += 1
 post_solve_rate = post_solved / max(len(bugs), 1)