Spaces:

Rayugacodes
/

Breach-OS

Sleeping

App Files Files Community

Naman Gupta commited on Apr 6

Commit

905ac2f

1 Parent(s): 87b0927

Fix turn counting, task-aware max steps in inference, explicit conversation reset, openenv.yaml metadata

Browse files

Files changed (5) hide show

frontend/index.html +17 -16
inference.py +3 -2
llm/pipeline.py +8 -1
openenv.yaml +2 -0
server/app.py +2 -1

frontend/index.html CHANGED Viewed

@@ -936,9 +936,7 @@
   }
   /* ── Execute attack step ─────────────────────────────────── */
-  btnStep.addEventListener('click', executeStep);
-  async function executeStep() {
     const framingEl = document.getElementById('framing');
     const framing = framingEl.value.trim();
     if (!framing) {
@@ -957,11 +955,12 @@
       framing,
     };
-    // Optimistically render attacker message
     appendAttackerMsg(framing, action.strategy_type, action.target_category, action.intensity.toFixed(2));
-    setLoading(btnStep, true);
-    btnStep.disabled = true;
     try {
       const data = await api('POST', '/step', action);
@@ -971,29 +970,31 @@
       appendDefenderMsg(obs.defender_response, obs.attack_success_estimate, obs.defense_score);
       updateMetrics(obs, rw);
       updateHeader(obs, null);
       if (obs.episode_done) {
         episodeDone   = true;
         episodeActive = false;
         setStatus('done');
-        btnStep.disabled  = true;
         btnAutoAttack.disabled = true;
-        btnGrade.disabled = false;
         appendSystemMsg('Episode complete. Grade your performance.');
         feedbackTxt.textContent = obs.feedback;
       }
     } catch (e) {
       toast('Error: ' + e.message, true);
-      btnStep.disabled = false;
     } finally {
-      setLoading(btnStep, false);
-      if (episodeDone) {
-        btnStep.disabled = true;
-        btnAutoAttack.disabled = true;
       }
     }
   }
   /* ── Execute auto attack ─────────────────────────────────── */
   btnAutoAttack.addEventListener('click', executeAutoAttack);
@@ -1002,19 +1003,19 @@
     const category = document.getElementById('category').value;
     setLoading(btnAutoAttack, true);
-    btnStep.disabled = true;
     btnAutoAttack.disabled = true;
     try {
       const data = await api('POST', '/auto-attack', { strategy_type: strategy, target_category: category });
       document.getElementById('framing').value = data.framing;
-      await executeStep();
     } catch (e) {
       toast('Error generating attack: ' + e.message, true);
     } finally {
       setLoading(btnAutoAttack, false);
       if (!episodeDone) {
-        btnStep.disabled = false;
         btnAutoAttack.disabled = false;
       }
     }

   }
   /* ── Execute attack step ─────────────────────────────────── */
+  async function executeStep(calledFromAuto = false) {
     const framingEl = document.getElementById('framing');
     const framing = framingEl.value.trim();
     if (!framing) {
       framing,
     };
     appendAttackerMsg(framing, action.strategy_type, action.target_category, action.intensity.toFixed(2));
+    if (!calledFromAuto) {
+      setLoading(btnStep, true);
+      btnStep.disabled = true;
+    }
     try {
       const data = await api('POST', '/step', action);
       appendDefenderMsg(obs.defender_response, obs.attack_success_estimate, obs.defense_score);
       updateMetrics(obs, rw);
       updateHeader(obs, null);
+      document.getElementById('framing').value = '';
       if (obs.episode_done) {
         episodeDone   = true;
         episodeActive = false;
         setStatus('done');
+        btnStep.disabled      = true;
         btnAutoAttack.disabled = true;
+        btnGrade.disabled     = false;
         appendSystemMsg('Episode complete. Grade your performance.');
         feedbackTxt.textContent = obs.feedback;
       }
     } catch (e) {
       toast('Error: ' + e.message, true);
+      if (!calledFromAuto) btnStep.disabled = false;
     } finally {
+      if (!calledFromAuto) {
+        setLoading(btnStep, false);
+        if (episodeDone) btnStep.disabled = true;
       }
     }
   }
+  btnStep.addEventListener('click', () => executeStep(false));
   /* ── Execute auto attack ─────────────────────────────────── */
   btnAutoAttack.addEventListener('click', executeAutoAttack);
     const category = document.getElementById('category').value;
     setLoading(btnAutoAttack, true);
+    btnStep.disabled      = true;
     btnAutoAttack.disabled = true;
     try {
       const data = await api('POST', '/auto-attack', { strategy_type: strategy, target_category: category });
       document.getElementById('framing').value = data.framing;
+      await executeStep(true);
     } catch (e) {
       toast('Error generating attack: ' + e.message, true);
     } finally {
       setLoading(btnAutoAttack, false);
       if (!episodeDone) {
+        btnStep.disabled      = false;
         btnAutoAttack.disabled = false;
       }
     }

inference.py CHANGED Viewed

@@ -30,7 +30,8 @@ HF_TOKEN     = os.getenv("HF_TOKEN")    or os.getenv("GROQ_API_KEY", "")
 SERVER_URL   = os.getenv("SERVER_URL",   "https://rayugacodes-breach-os.hf.space")
 BENCHMARK    = "breach-os"
-MAX_STEPS    = 10
 # ── LLM client ────────────────────────────────────────────────────────────────
 client = OpenAI(base_url=API_BASE_URL, api_key=HF_TOKEN)
@@ -94,7 +95,7 @@ async def run_task(task: str) -> None:
             defender_resp = obs["defender_response"]
             prev_success  = 0.0
-            while step < MAX_STEPS:
                 step += 1
                 action = generate_attack(defender_resp, step, prev_success)
                 action_str = f"strategy={action['strategy_type']} category={action['target_category']} intensity={action['intensity']}"

 SERVER_URL   = os.getenv("SERVER_URL",   "https://rayugacodes-breach-os.hf.space")
 BENCHMARK    = "breach-os"
+TASK_MAX_STEPS = {"easy": 5, "medium": 8, "hard": 10}
 # ── LLM client ────────────────────────────────────────────────────────────────
 client = OpenAI(base_url=API_BASE_URL, api_key=HF_TOKEN)
             defender_resp = obs["defender_response"]
             prev_success  = 0.0
+            while step < TASK_MAX_STEPS[task]:
                 step += 1
                 action = generate_attack(defender_resp, step, prev_success)
                 action_str = f"strategy={action['strategy_type']} category={action['target_category']} intensity={action['intensity']}"

llm/pipeline.py CHANGED Viewed

@@ -162,9 +162,12 @@ async def run_llm_pipeline(action: Any, conversation_history: list[dict]) -> dic
         safety_flagged     — True if dangerous keywords were detected
         llm_grade          — summary dict for logging/grading
     """
-    # An empty conversation_history signals a fresh episode — reset memory
     if not conversation_history:
         conversation.reset()
     attack_text = getattr(action, "framing", str(action))
@@ -191,6 +194,10 @@ async def run_llm_pipeline(action: Any, conversation_history: list[dict]) -> dic
     }
 # Keep old aliases so imports in other files don't break
 _conv = conversation
 _check_safety_flag = _is_dangerous

         safety_flagged     — True if dangerous keywords were detected
         llm_grade          — summary dict for logging/grading
     """
+    # Reset conversation on the first turn of each episode
     if not conversation_history:
         conversation.reset()
+    elif conversation.turn_count == 0:
+        # Handles case where reset() wasn't triggered (e.g. multi-task runs)
+        conversation.reset()
     attack_text = getattr(action, "framing", str(action))
     }
+def reset_conversation() -> None:
+    """Explicitly reset the conversation — call this on every /reset."""
+    conversation.reset()
 # Keep old aliases so imports in other files don't break
 _conv = conversation
 _check_safety_flag = _is_dangerous

openenv.yaml CHANGED Viewed

@@ -1,6 +1,8 @@
 name: BreachOS
 version: "0.1.0"
 description: "AI Red-Teaming Environment for Safety Research"
 tasks:
   easy:

 name: BreachOS
 version: "0.1.0"
 description: "AI Red-Teaming Environment for Safety Research"
+author: "X-MEN"
+space_url: "https://huggingface.co/spaces/Rayugacodes/Breach-OS"
 tasks:
   easy:

server/app.py CHANGED Viewed

@@ -9,7 +9,7 @@ from server.environment import RedTeamEnvironment
 from server.config import get_settings
 from rewards.compute_rewards import RewardComputer
-from llm.pipeline import run_llm_pipeline
 from llm.automated_attacker import generate_automated_attack
 env: RedTeamEnvironment = None
@@ -54,6 +54,7 @@ async def health_check():
 @app.post("/reset", response_model=ResetResponse)
 async def reset_episode():
     try:
         observation = await env.reset()
         return ResetResponse(observation=observation, episode_id=observation.episode_id)
     except Exception as e:

 from server.config import get_settings
 from rewards.compute_rewards import RewardComputer
+from llm.pipeline import run_llm_pipeline, reset_conversation
 from llm.automated_attacker import generate_automated_attack
 env: RedTeamEnvironment = None
 @app.post("/reset", response_model=ResetResponse)
 async def reset_episode():
     try:
+        reset_conversation()
         observation = await env.reset()
         return ResetResponse(observation=observation, episode_id=observation.episode_id)
     except Exception as e: