Upload _reasoning_rl_multiseed/exp_phase8_reasoning_grounded_rl_t1_r128_alpha1_s3_20260506_234027/manifest.json with huggingface_hub

Files changed (1) hide show

_reasoning_rl_multiseed/exp_phase8_reasoning_grounded_rl_t1_r128_alpha1_s3_20260506_234027/manifest.json ADDED Viewed

+{
+  "trainer": "train_reasoning_grounded_rl.py",
+  "stage": "post_sft_rl",
+  "init_ckpt": "/workspace/dnathinker/runs/exp_phase5_stage_a_v7_reasoning_t1_r128_FIXED_20260502_104222/best.pt",
+  "llm_name": "Qwen/Qwen3.5-0.8B",
+  "lora_r": 128,
+  "lora_layers": [
+    3,
+    7,
+    11,
+    15,
+    19,
+    23
+  ],
+  "lora_modules": [
+    "k_proj",
+    "o_proj",
+    "q_proj",
+    "v_proj"
+  ],
+  "n_trainable": 8650752,
+  "alpha_halluc": 1.0,
+  "beta_tags": 0.1,
+  "gamma_consensus": 0.2,
+  "rollouts_per_prompt": 4,
+  "lr": 5e-06,
+  "num_rl_steps": 250,
+  "seed": 3
+}