Spaces:

ceoavinash
/

codearena-rl

Sleeping

adityanaikhpt commited on 28 days ago

Commit

646409d

1 Parent(s): 2d8d38c

fix: reset task_id parsing, grader tuple crash fallback, and inference score output

Files changed (3) hide show

inference.py CHANGED Viewed

@@ -31,7 +31,7 @@ def run_task(task_id: str):
     except Exception as e:
         error_msg = str(e).replace("\n", " ").replace("\r", "")
         print(f"[STEP] step=1 action=reset_failed reward=0.01 done=true error={error_msg}")
-        print(f"[END] success=false steps=1 rewards=0.01")
         return
     rewards = []
@@ -109,7 +109,8 @@ def run_task(task_id: str):
     success = any(r > 0.5 for r in rewards)
     success_str = "true" if success else "false"
     rewards_str = ",".join([f"{r:.2f}" for r in rewards])
-    print(f"[END] success={success_str} steps={step} rewards={rewards_str}")
 def main():
     target_task = os.environ.get("CODEARENA_TASK")

     except Exception as e:
         error_msg = str(e).replace("\n", " ").replace("\r", "")
         print(f"[STEP] step=1 action=reset_failed reward=0.01 done=true error={error_msg}")
+        print(f"[END] success=false steps=1 score=0.01 rewards=0.01")
         return
     rewards = []
     success = any(r > 0.5 for r in rewards)
     success_str = "true" if success else "false"
     rewards_str = ",".join([f"{r:.2f}" for r in rewards])
+    score = max(0.001, min(0.999, (sum(rewards) / len(rewards)) if rewards else 0.5))
+    print(f"[END] success={success_str} steps={step} score={score:.2f} rewards={rewards_str}")
 def main():
     target_task = os.environ.get("CODEARENA_TASK")

server/env.py CHANGED Viewed

@@ -18,14 +18,17 @@ class CodeArenaEnv:
         self.step_count = 0
         self.max_steps = 5
-    def reset(self) -> CodeArenaObservation:
-        self.current_task = random.choice(self.tasks)
         self.previous_attempts = []
         self.last_error_log = ""
         self.last_test_results = ""
         self.is_done = False
         self.step_count = 0
         return self.state()
     def step(self, action: CodeArenaAction) -> tuple[CodeArenaObservation, float, bool, dict]:
@@ -83,9 +86,9 @@ async def lifespan(app: FastAPI):
 app = FastAPI(lifespan=lifespan, title="CodeArena RL Environment")
 @app.post("/reset")
-def api_reset():
-    obs = _env.reset()
-    # Returns 200 OK by default in FastAPI
     return {"message": "Environment reset successfully", "observation": obs.model_dump()}
 @app.post("/step")

         self.step_count = 0
         self.max_steps = 5
+    def reset(self, task_id: str = None) -> CodeArenaObservation:
+        if task_id:
+            matched = [t for t in self.tasks if t.task_id == task_id]
+            self.current_task = matched[0] if matched else random.choice(self.tasks)
+        else:
+            self.current_task = random.choice(self.tasks)
         self.previous_attempts = []
         self.last_error_log = ""
         self.last_test_results = ""
         self.is_done = False
         self.step_count = 0
         return self.state()
     def step(self, action: CodeArenaAction) -> tuple[CodeArenaObservation, float, bool, dict]:
 app = FastAPI(lifespan=lifespan, title="CodeArena RL Environment")
 @app.post("/reset")
+def api_reset(body: dict = None):
+    task_id = (body or {}).get("task_id")
+    obs = _env.reset(task_id=task_id)
     return {"message": "Environment reset successfully", "observation": obs.model_dump()}
 @app.post("/step")

server/grader.py CHANGED Viewed

@@ -1,36 +1,25 @@
 from .models import ExecutionResult, TaskInfo
 def safe_reward(reward) -> float:
-    """
-    Final safety net: guarantees reward is strictly within (0, 1).
-    Applied at every return point as a last-mile clamp.
-    """
     try:
         r = float(reward)
     except Exception:
         return 0.5
-    return max(0.001, min(0.999, float(reward)))
 def normalize_reward(passed: int, total: int) -> float:
-    """
-    Compute a reward strictly within the open interval (0, 1).
-    Never returns exactly 0.0 or 1.0.
-    """
     if total == 0:
         return 0.5
-    reward = passed / total
-    return max(0.001, min(0.999, float(reward)))
 def calculate_reward(exec_result: ExecutionResult, task_info: TaskInfo) -> float:
-    """
-    Single entry-point used by env.py and app.py.
-    Delegates to normalize_reward, then applies safe_reward clamp.
-    """
     reward = normalize_reward(exec_result.test_passed, exec_result.test_total)
     return safe_reward(reward)
-# Alias for OpenEnv grader
-grade = calculate_reward

 from .models import ExecutionResult, TaskInfo
 def safe_reward(reward) -> float:
     try:
         r = float(reward)
     except Exception:
         return 0.5
+    return max(0.001, min(0.999, r))
 def normalize_reward(passed: int, total: int) -> float:
     if total == 0:
         return 0.5
+    return max(0.001, min(0.999, passed / total))
 def calculate_reward(exec_result: ExecutionResult, task_info: TaskInfo) -> float:
     reward = normalize_reward(exec_result.test_passed, exec_result.test_total)
     return safe_reward(reward)
+def grade(*args, **kwargs) -> float:
+    try:
+        if len(args) == 2:
+            return calculate_reward(args[0], args[1])
+        return 0.5
+    except Exception:
+        return 0.5