Spaces:

uvpatel7271
/

python-code-review-env

Runtime error

App Files Files Community

uvpatel7271 commited on 6 days ago

Commit

692f802

1 Parent(s): cd5c208

fixes bugs and head ahead of winning

Browse files

Files changed (16) hide show

__init__.py +2 -2
__pycache__/__init__.cpython-313.pyc +0 -0
__pycache__/client.cpython-313.pyc +0 -0
__pycache__/models.cpython-313.pyc +0 -0
client.py +1 -1
graders/bug_fix.py +2 -2
graders/dispatch.py +2 -2
graders/optimization.py +2 -2
graders/shared.py +2 -2
graders/syntax.py +2 -2
models/__init__.py +63 -2
openenv_models.py +0 -146
server/__pycache__/app.cpython-313.pyc +0 -0
server/app.py +2 -2
server/env.py +2 -2
tests/test_scoring.py +1 -1

__init__.py CHANGED Viewed

@@ -1,8 +1,8 @@
 """Public package exports for python_code_review_env."""
 from .client import PythonCodeReviewEnv, PythonEnv
-from .models import PyTorchCodeAnalyzerModel
-from .openenv_models import (
     PythonAction,
     PythonCodeReviewAction,
     PythonCodeReviewObservation,

 """Public package exports for python_code_review_env."""
 from .client import PythonCodeReviewEnv, PythonEnv
+from .models import (
+    PyTorchCodeAnalyzerModel,
     PythonAction,
     PythonCodeReviewAction,
     PythonCodeReviewObservation,

__pycache__/__init__.cpython-313.pyc CHANGED Viewed

Binary files a/__pycache__/__init__.cpython-313.pyc and b/__pycache__/__init__.cpython-313.pyc differ

__pycache__/client.cpython-313.pyc CHANGED Viewed

Binary files a/__pycache__/client.cpython-313.pyc and b/__pycache__/client.cpython-313.pyc differ

__pycache__/models.cpython-313.pyc CHANGED Viewed

Binary files a/__pycache__/models.cpython-313.pyc and b/__pycache__/models.cpython-313.pyc differ

client.py CHANGED Viewed

@@ -7,7 +7,7 @@ from typing import Dict
 from openenv.core import EnvClient
 from openenv.core.client_types import StepResult
-from .openenv_models import (
     PythonCodeReviewAction,
     PythonCodeReviewObservation,
     PythonCodeReviewState,

 from openenv.core import EnvClient
 from openenv.core.client_types import StepResult
+from .models import (
     PythonCodeReviewAction,
     PythonCodeReviewObservation,
     PythonCodeReviewState,

graders/bug_fix.py CHANGED Viewed

@@ -3,10 +3,10 @@
 from __future__ import annotations
 try:
-    from ..openenv_models import TaskGrade
     from ..tasks.catalog import ReviewTask
 except ImportError:
-    from openenv_models import TaskGrade
     from tasks.catalog import ReviewTask
 from .shared import (

 from __future__ import annotations
 try:
+    from ..models import TaskGrade
     from ..tasks.catalog import ReviewTask
 except ImportError:
+    from models import TaskGrade
     from tasks.catalog import ReviewTask
 from .shared import (

graders/dispatch.py CHANGED Viewed

@@ -3,10 +3,10 @@
 from __future__ import annotations
 try:
-    from ..openenv_models import TaskGrade
     from ..tasks.catalog import ReviewTask
 except ImportError:
-    from openenv_models import TaskGrade
     from tasks.catalog import ReviewTask
 from .bug_fix import grade_bug_fix_task

 from __future__ import annotations
 try:
+    from ..models import TaskGrade
     from ..tasks.catalog import ReviewTask
 except ImportError:
+    from models import TaskGrade
     from tasks.catalog import ReviewTask
 from .bug_fix import grade_bug_fix_task

graders/optimization.py CHANGED Viewed

@@ -3,10 +3,10 @@
 from __future__ import annotations
 try:
-    from ..openenv_models import TaskGrade
     from ..tasks.catalog import ReviewTask
 except ImportError:
-    from openenv_models import TaskGrade
     from tasks.catalog import ReviewTask
 from .shared import (

 from __future__ import annotations
 try:
+    from ..models import TaskGrade
     from ..tasks.catalog import ReviewTask
 except ImportError:
+    from models import TaskGrade
     from tasks.catalog import ReviewTask
 from .shared import (

graders/shared.py CHANGED Viewed

@@ -12,10 +12,10 @@ import traceback
 from typing import Any, Callable, Dict, List
 try:
-    from ..openenv_models import TaskGrade
     from ..tasks.catalog import CallCase, ReviewTask
 except ImportError:
-    from openenv_models import TaskGrade
     from tasks.catalog import CallCase, ReviewTask

 from typing import Any, Callable, Dict, List
 try:
+    from ..models import TaskGrade
     from ..tasks.catalog import CallCase, ReviewTask
 except ImportError:
+    from models import TaskGrade
     from tasks.catalog import CallCase, ReviewTask

graders/syntax.py CHANGED Viewed

@@ -3,10 +3,10 @@
 from __future__ import annotations
 try:
-    from ..openenv_models import TaskGrade
     from ..tasks.catalog import ReviewTask
 except ImportError:
-    from openenv_models import TaskGrade
     from tasks.catalog import ReviewTask
 from .shared import (

 from __future__ import annotations
 try:
+    from ..models import TaskGrade
     from ..tasks.catalog import ReviewTask
 except ImportError:
+    from models import TaskGrade
     from tasks.catalog import ReviewTask
 from .shared import (

models/__init__.py CHANGED Viewed

@@ -1,5 +1,66 @@
-"""PyTorch-backed model wrappers for the analyzer platform."""
 from .pytorch_model import PyTorchCodeAnalyzerModel
-__all__ = ["PyTorchCodeAnalyzerModel"]

+"""PyTorch-backed model wrappers plus OpenEnv schema exports."""
+from __future__ import annotations
+import importlib.util
+import sys
+from pathlib import Path
 from .pytorch_model import PyTorchCodeAnalyzerModel
+def _load_schema_module():
+    schema_path = Path(__file__).resolve().parent.parent / "models.py"
+    spec = importlib.util.spec_from_file_location("_python_env_schema_models", schema_path)
+    if spec is None or spec.loader is None:  # pragma: no cover
+        raise ImportError(f"Unable to load schema models from {schema_path}")
+    if spec.name in sys.modules:
+        return sys.modules[spec.name]
+    module = importlib.util.module_from_spec(spec)
+    sys.modules[spec.name] = module
+    spec.loader.exec_module(module)
+    for model_name in (
+        "HistoryEntry",
+        "RewardDetails",
+        "PythonCodeReviewAction",
+        "PythonCodeReviewObservation",
+        "PythonCodeReviewState",
+        "TaskDescriptor",
+        "TaskSummary",
+        "TaskGrade",
+        "HealthResponse",
+    ):
+        getattr(module, model_name).model_rebuild()
+    return module
+_schema_models = _load_schema_module()
+HealthResponse = _schema_models.HealthResponse
+HistoryEntry = _schema_models.HistoryEntry
+PythonAction = _schema_models.PythonAction
+PythonCodeReviewAction = _schema_models.PythonCodeReviewAction
+PythonCodeReviewObservation = _schema_models.PythonCodeReviewObservation
+PythonCodeReviewState = _schema_models.PythonCodeReviewState
+PythonObservation = _schema_models.PythonObservation
+PythonState = _schema_models.PythonState
+RewardDetails = _schema_models.RewardDetails
+TaskDescriptor = _schema_models.TaskDescriptor
+TaskGrade = _schema_models.TaskGrade
+TaskSummary = _schema_models.TaskSummary
+__all__ = [
+    "HealthResponse",
+    "HistoryEntry",
+    "PyTorchCodeAnalyzerModel",
+    "PythonAction",
+    "PythonCodeReviewAction",
+    "PythonCodeReviewObservation",
+    "PythonCodeReviewState",
+    "PythonObservation",
+    "PythonState",
+    "RewardDetails",
+    "TaskDescriptor",
+    "TaskGrade",
+    "TaskSummary",
+]

openenv_models.py DELETED Viewed

@@ -1,146 +0,0 @@
-"""Typed models for the python_code_review_env environment."""
-from __future__ import annotations
-from typing import Any, Dict, List, Literal, Optional
-from pydantic import BaseModel, Field
-from openenv.core.env_server.types import Action, Observation, State
-Difficulty = Literal["easy", "medium", "hard"]
-TaskKind = Literal["syntax_fix", "bug_fix", "optimization"]
-ActionType = Literal["analyze_code", "edit_code", "run_tests", "submit_solution"]
-class HistoryEntry(BaseModel):
-    """One environment transition recorded for the agent."""
-    step: int = Field(..., ge=0)
-    action_type: ActionType
-    status: str = Field(..., description="Short outcome summary.")
-    reward: float = Field(..., gt=0.0, lt=1.0, description="Reward returned for the step.")
-class RewardDetails(BaseModel):
-    """Transparent reward decomposition for debugging and training."""
-    value: float = Field(..., gt=0.0, lt=1.0, description="Clamped net reward in (0.0, 1.0).")
-    syntax_reward: float = Field(default=0.0)
-    test_reward: float = Field(default=0.0)
-    correctness_bonus: float = Field(default=0.0)
-    quality_bonus: float = Field(default=0.0)
-    error_reduction_bonus: float = Field(default=0.0)
-    completion_bonus: float = Field(default=0.0)
-    runtime_bonus: float = Field(default=0.0)
-    progress_delta: float = Field(default=0.0)
-    invalid_action_penalty: float = Field(default=0.0)
-    timeout_penalty: float = Field(default=0.0)
-    regression_penalty: float = Field(default=0.0)
-    stagnation_penalty: float = Field(default=0.0)
-    reason: str = Field(..., description="Human-readable reward explanation.")
-    prev_score: float = Field(default=0.01, gt=0.0, lt=1.0)
-    curr_score: float = Field(default=0.01, gt=0.0, lt=1.0)
-    code_changed: bool = Field(default=False)
-class PythonCodeReviewAction(Action):
-    """Action schema exposed to the agent."""
-    action_type: ActionType = Field(..., description="Environment action to take.")
-    code: Optional[str] = Field(
-        default=None,
-        description="Updated Python source for edit_code or submit_solution actions.",
-    )
-class PythonCodeReviewObservation(Observation):
-    """Observation returned by reset and step."""
-    task_id: str = Field(..., description="Stable task identifier.")
-    title: str = Field(..., description="Human-readable task title.")
-    difficulty: Difficulty
-    task_kind: TaskKind
-    task_description: str = Field(..., description="Task instructions shown to the agent.")
-    current_code: str = Field(..., description="Latest code under review.")
-    errors: str = Field(default="", description="Syntax or execution errors.")
-    test_results: str = Field(default="", description="Public test and benchmark feedback.")
-    visible_tests: List[str] = Field(default_factory=list)
-    history: List[HistoryEntry] = Field(default_factory=list)
-    attempts_remaining: int = Field(..., ge=0)
-    last_action_status: str = Field(default="")
-    last_action_error: Optional[str] = Field(default=None)
-    score: float = Field(..., gt=0.0, lt=1.0)
-    reward: float = Field(default=0.1, gt=0.0, lt=1.0)
-    done: bool = Field(default=False)
-    reward_details: RewardDetails = Field(
-        default_factory=lambda: RewardDetails(value=0.1, reason="Environment reset.")
-    )
-class PythonCodeReviewState(State):
-    """Internal environment state exposed through /state."""
-    task_id: Optional[str] = Field(default=None)
-    difficulty: Optional[Difficulty] = Field(default=None)
-    task_kind: Optional[TaskKind] = Field(default=None)
-    attempts_remaining: int = Field(default=0, ge=0)
-    current_code: str = Field(default="")
-    errors: str = Field(default="")
-    test_results: str = Field(default="")
-    history: List[HistoryEntry] = Field(default_factory=list)
-    score: float = Field(default=0.01, gt=0.0, lt=1.0)
-    done: bool = Field(default=False)
-class TaskDescriptor(BaseModel):
-    """Static task metadata."""
-    task_id: str
-    title: str
-    difficulty: Difficulty
-    task_kind: TaskKind
-    task_description: str
-    starter_code: str
-    visible_tests: List[str] = Field(default_factory=list)
-    repo_summary: str = Field(default="")
-    changed_files: List[str] = Field(default_factory=list)
-    available_files: List[str] = Field(default_factory=list)
-    goal: str = Field(default="")
-    max_steps: int = Field(..., ge=1)
-class TaskSummary(BaseModel):
-    """Compact task listing entry."""
-    task_id: str
-    difficulty: Difficulty
-    title: str
-    goal: str = Field(default="")
-class TaskGrade(BaseModel):
-    """Deterministic grader output."""
-    score: float = Field(..., gt=0.0, lt=1.0)
-    syntax_score: float = Field(default=0.01, gt=0.0, lt=1.0)
-    tests_passed: int = Field(default=0, ge=0)
-    tests_total: int = Field(default=0, ge=0)
-    quality_score: float = Field(default=0.01, gt=0.0, lt=1.0)
-    runtime_score: float = Field(default=0.01, gt=0.0, lt=1.0)
-    timed_out: bool = Field(default=False)
-    details: Dict[str, Any] = Field(default_factory=dict)
-class HealthResponse(BaseModel):
-    """Health payload for smoke tests."""
-    status: Literal["ok"] = "ok"
-    environment: str = "python_code_review_env"
-    task_count: int = Field(default=0, ge=0)
-PythonAction = PythonCodeReviewAction
-PythonObservation = PythonCodeReviewObservation
-PythonState = PythonCodeReviewState

server/__pycache__/app.cpython-313.pyc CHANGED Viewed

Binary files a/server/__pycache__/app.cpython-313.pyc and b/server/__pycache__/app.cpython-313.pyc differ

server/app.py CHANGED Viewed

@@ -19,10 +19,10 @@ except Exception:
     gr = None  # type: ignore[assignment]
 try:
-    from ..openenv_models import PythonCodeReviewAction, PythonCodeReviewObservation
     from .env import PythonCodeReviewEnvironment
 except ImportError:
-    from openenv_models import PythonCodeReviewAction, PythonCodeReviewObservation
     from server.env import PythonCodeReviewEnvironment

     gr = None  # type: ignore[assignment]
 try:
+    from ..models import PythonCodeReviewAction, PythonCodeReviewObservation
     from .env import PythonCodeReviewEnvironment
 except ImportError:
+    from models import PythonCodeReviewAction, PythonCodeReviewObservation
     from server.env import PythonCodeReviewEnvironment

server/env.py CHANGED Viewed

@@ -11,7 +11,7 @@ from openenv.core.env_server.types import EnvironmentMetadata
 try:
     from ..graders import grade_task
     from ..graders.shared import component_score, safe_ratio, strict_score
-    from ..openenv_models import (
         HistoryEntry,
         PythonCodeReviewAction,
         PythonCodeReviewObservation,
@@ -23,7 +23,7 @@ try:
 except ImportError:
     from graders import grade_task
     from graders.shared import component_score, safe_ratio, strict_score
-    from openenv_models import (
         HistoryEntry,
         PythonCodeReviewAction,
         PythonCodeReviewObservation,

 try:
     from ..graders import grade_task
     from ..graders.shared import component_score, safe_ratio, strict_score
+    from ..models import (
         HistoryEntry,
         PythonCodeReviewAction,
         PythonCodeReviewObservation,
 except ImportError:
     from graders import grade_task
     from graders.shared import component_score, safe_ratio, strict_score
+    from models import (
         HistoryEntry,
         PythonCodeReviewAction,
         PythonCodeReviewObservation,

tests/test_scoring.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from __future__ import annotations
 from graders import grade_task
-from openenv_models import PythonCodeReviewAction
 from server.env import PythonCodeReviewEnvironment
 from tasks import list_tasks

 from __future__ import annotations
 from graders import grade_task
+from models import PythonCodeReviewAction
 from server.env import PythonCodeReviewEnvironment
 from tasks import list_tasks