Spaces:

Yash030
/

claude-code-proxy

Running

Yash030 Claude Opus 4.7 commited on 2 days ago

Commit

9358a6f

1 Parent(s): 948c8f9

Optimize auto routing: Zen unlimited, smarter fallback skipping

- Zen provider gets 9999 req/min scoped limiter (no rate limit wait)
- Silent skip for blocked NIM providers (no failure penalty)
- Zen blocked check uses debug instead of warning level
- Minor ruff fixes (quoted types, ternary style)

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

Files changed (2) hide show

api/services.py +3 -3
providers/rate_limit.py +8 -4

api/services.py CHANGED Viewed

@@ -251,11 +251,11 @@ class ClaudeProxyService:
                 limiter = GlobalRateLimiter.get_scoped_instance(resolved.provider_id)
                 if limiter.is_blocked() and resolved.provider_id != "zen":
-                    logger.warning(
-                        "Provider '{}' is currently rate limited, skipping to next candidate...",
                         resolved.provider_id,
                     )
-                    last_exc = Exception("Rate limited")
                     continue
                 # Check model health (recent failures)

                 limiter = GlobalRateLimiter.get_scoped_instance(resolved.provider_id)
                 if limiter.is_blocked() and resolved.provider_id != "zen":
+                    # Silently skip — no failure penalty for temporary rate limit
+                    logger.debug(
+                        "Skipping blocked provider '{}' (no penalty)",
                         resolved.provider_id,
                     )
                     continue
                 # Check model health (recent failures)

providers/rate_limit.py CHANGED Viewed

@@ -19,7 +19,7 @@ T = TypeVar("T")
 class ModelHealthTracker:
     """Track per-model health based on recent failures."""
-    _instance: ClassVar["ModelHealthTracker | None"] = None
     def __init__(self, failure_ttl: float = 30.0, max_failures: int = 3) -> None:
         self._failure_ttl = failure_ttl
@@ -27,7 +27,7 @@ class ModelHealthTracker:
         self._failures: dict[str, list[float]] = {}
     @classmethod
-    def get_instance(cls) -> "ModelHealthTracker":
         if cls._instance is None:
             cls._instance = cls()
         return cls._instance
@@ -149,10 +149,14 @@ class GlobalRateLimiter:
         rate_window: float | None = None,
         max_concurrency: int = 5,
     ) -> GlobalRateLimiter:
-        """Get or create a provider-scoped limiter instance."""
         if not scope:
             raise ValueError("scope must be non-empty")
-        desired_rate_limit = rate_limit or 40
         desired_rate_window = float(rate_window or 60.0)
         existing = cls._scoped_instances.get(scope)
         if existing and existing.matches_config(

 class ModelHealthTracker:
     """Track per-model health based on recent failures."""
+    _instance: ClassVar[ModelHealthTracker | None] = None
     def __init__(self, failure_ttl: float = 30.0, max_failures: int = 3) -> None:
         self._failure_ttl = failure_ttl
         self._failures: dict[str, list[float]] = {}
     @classmethod
+    def get_instance(cls) -> ModelHealthTracker:
         if cls._instance is None:
             cls._instance = cls()
         return cls._instance
         rate_window: float | None = None,
         max_concurrency: int = 5,
     ) -> GlobalRateLimiter:
+        """Get or create a provider-scoped limiter instance.
+        Zen gets unlimited rate (9999) since it has no rate limits.
+        NIM and others use the configured or default 40 req/min.
+        """
         if not scope:
             raise ValueError("scope must be non-empty")
+        desired_rate_limit = 9999 if scope == "zen" else rate_limit or 40
         desired_rate_window = float(rate_window or 60.0)
         existing = cls._scoped_instances.get(scope)
         if existing and existing.matches_config(