Mulebot
/

dei-model

renpas22 commited on Dec 17, 2025

Commit

5af9eca

1 Parent(s): 0326431

Add missing RL/PPO config parameters

Files changed (1) hide show

train_configs/train_qwen_cot_dual.yaml CHANGED Viewed

@@ -29,6 +29,16 @@ text_dim: 4096
 prm_hidden_dim: 768
 prm_num_heads: 8
 prm_dropout: 0.1
 max_reasoning_steps: 20
 # Dataset Configuration

 prm_hidden_dim: 768
 prm_num_heads: 8
 prm_dropout: 0.1
+max_reasoning_steps: 50
+# RL/PPO Configuration (flattened for trainer access)
+ppo_clip_epsilon: 0.2
+value_loss_coef: 0.5
+entropy_coef: 0.01
+gamma: 0.99
+gae_lambda: 0.95
+rl_learning_rate: 5e-6
+prm_dropout: 0.1
 max_reasoning_steps: 20
 # Dataset Configuration