Spaces:

mycompanyajt
/

inference

Running

App Files Files Community

nurulajt commited on 17 days ago

Commit

c240d75

verified ·

1 Parent(s): 31f5cc4

Update api.py

Browse files

Files changed (1) hide show

api.py +97 -4

api.py CHANGED Viewed

@@ -33,6 +33,7 @@ app.add_middleware(
 MODELS = {}
 VOYAGE_API_KEY = os.environ.get('VOYAGE_API_KEY', '')
 FIREWORKS_API_KEY = os.environ.get('FIREWORKS_API_KEY', '')
 API_KEY = os.environ.get('API_KEY', '')
 REQUIRE_API_KEY = os.environ.get('REQUIRE_API_KEY', 'false').lower() == 'true'
@@ -48,6 +49,7 @@ for cache_dir in [os.environ['TRANSFORMERS_CACHE'], os.environ['HF_HOME'], os.en
 security = HTTPBearer(auto_error=False)
 voyage_client = None
 fireworks_available = False
 logger.info(f"API Key authentication: {'ENABLED' if REQUIRE_API_KEY else 'DISABLED'}")
 if API_KEY:
@@ -88,6 +90,17 @@ if FIREWORKS_API_KEY:
         # Still mark as available if key is set
         fireworks_available = True if FIREWORKS_API_KEY else False
 def load_models():
     """Load embedding models on startup (gracefully handles failures)"""
@@ -115,14 +128,17 @@ def load_models():
     except Exception as e:
         logger.warning(f"⚠️  Jina AI v3 not loaded: {e}")
-    # Qwen3-Embedding-8B via Fireworks AI (API-based, no download needed!)
     if fireworks_available:
         MODELS['qwen3'] = 'fireworks'  # Mark as available via Fireworks AI
         logger.info("✓ Qwen3-Embedding-8B available via Fireworks AI API (MTEB #1, no local model needed)")
     else:
         logger.warning("⚠️  Qwen3-Embedding-8B not available")
-        logger.warning("   To enable: Set FIREWORKS_API_KEY environment variable")
-        logger.warning("   Get API key at: https://fireworks.ai")
         logger.warning("   This avoids 15GB local download!")
     # Check if at least one model loaded
@@ -205,6 +221,44 @@ def get_fireworks_embeddings(texts: List[str], task: Optional[str] = None) -> Li
     return embeddings
 @app.on_event("startup")
 async def startup_event():
     load_models()
@@ -267,6 +321,7 @@ class HealthResponse(BaseModel):
     models_loaded: List[str]
     voyage_available: bool
     fireworks_available: bool
     api_key_required: bool
 @app.get("/", response_model=dict)
@@ -293,6 +348,7 @@ async def health():
         "models_loaded": models_loaded,
         "voyage_available": voyage_client is not None,
         "fireworks_available": fireworks_available,
         "api_key_required": REQUIRE_API_KEY
     }
@@ -315,7 +371,8 @@ async def create_embeddings_elasticsearch(
     - `jobbertv2`: JobBERT-v2 (768-dim, job-specific)
     - `jobbertv3`: JobBERT-v3 (768-dim, job-specific, improved performance) - default
     - `jina`: Jina AI embeddings-v3 (1024-dim, general purpose)
-    - `qwen3`: Qwen3-Embedding-8B (4096-dim, MTEB #1, multilingual, 32k context)
     - `voyage`: Voyage AI (1024-dim, requires API key)
     **Jina AI Tasks (via query parameter):**
@@ -371,6 +428,36 @@ async def create_embeddings_elasticsearch(
         except Exception as e:
             raise HTTPException(status_code=500, detail=f"Voyage AI error: {str(e)}")
     elif model_name in MODELS:
         try:
             selected_model = MODELS[model_name]
@@ -378,6 +465,9 @@ async def create_embeddings_elasticsearch(
             # Qwen3 via Fireworks AI API (no local model)
             if model_name == "qwen3" and selected_model == 'fireworks':
                 embeddings_list = get_fireworks_embeddings(texts, task=task)
             # Jina AI with task type
             elif model_name == "jina" and task:
                 embeddings = selected_model.encode(
@@ -486,6 +576,9 @@ async def create_embeddings_batch(
             # Qwen3 via Fireworks AI API (no local model)
             if model_name == "qwen3" and selected_model == 'fireworks':
                 embeddings_list = get_fireworks_embeddings(request.texts, task=request.task)
             # Jina AI with task type
             elif model_name == "jina" and request.task:
                 embeddings = selected_model.encode(

 MODELS = {}
 VOYAGE_API_KEY = os.environ.get('VOYAGE_API_KEY', '')
 FIREWORKS_API_KEY = os.environ.get('FIREWORKS_API_KEY', '')
+OPENROUTER_API_KEY = os.environ.get('OPENROUTER_API_KEY', '')
 API_KEY = os.environ.get('API_KEY', '')
 REQUIRE_API_KEY = os.environ.get('REQUIRE_API_KEY', 'false').lower() == 'true'
 security = HTTPBearer(auto_error=False)
 voyage_client = None
 fireworks_available = False
+openrouter_available = False
 logger.info(f"API Key authentication: {'ENABLED' if REQUIRE_API_KEY else 'DISABLED'}")
 if API_KEY:
         # Still mark as available if key is set
         fireworks_available = True if FIREWORKS_API_KEY else False
+if OPENROUTER_API_KEY:
+    try:
+        import requests
+        openrouter_available = True
+        logger.info("✓ OpenRouter API key configured (Qwen3, text-embedding-3-small, and more available)")
+    except ImportError:
+        logger.warning("⚠️  requests package not installed (needed for OpenRouter)")
+    except Exception as e:
+        logger.warning(f"⚠️  OpenRouter validation failed: {e}")
+        openrouter_available = True if OPENROUTER_API_KEY else False
 def load_models():
     """Load embedding models on startup (gracefully handles failures)"""
     except Exception as e:
         logger.warning(f"⚠️  Jina AI v3 not loaded: {e}")
+    # Qwen3-Embedding-8B via Fireworks AI or OpenRouter (API-based, no download needed!)
     if fireworks_available:
         MODELS['qwen3'] = 'fireworks'  # Mark as available via Fireworks AI
         logger.info("✓ Qwen3-Embedding-8B available via Fireworks AI API (MTEB #1, no local model needed)")
+    elif openrouter_available:
+        MODELS['qwen3'] = 'openrouter'  # Mark as available via OpenRouter
+        logger.info("✓ Qwen3-Embedding-8B available via OpenRouter API (MTEB #1, no local model needed)")
     else:
         logger.warning("⚠️  Qwen3-Embedding-8B not available")
+        logger.warning("   To enable: Set FIREWORKS_API_KEY or OPENROUTER_API_KEY environment variable")
+        logger.warning("   Fireworks: https://fireworks.ai | OpenRouter: https://openrouter.ai")
         logger.warning("   This avoids 15GB local download!")
     # Check if at least one model loaded
     return embeddings
+def get_openrouter_embeddings(texts: List[str], model: str = "qwen/qwen3-embedding-8b") -> List[List[float]]:
+    """
+    Get embeddings from OpenRouter API
+    Args:
+        texts: List of texts to embed
+        model: Model to use (default: qwen/qwen3-embedding-8b)
+               Also supports: openai/text-embedding-3-small, openai/text-embedding-3-large
+    Returns:
+        List of embedding vectors
+    """
+    import requests
+    if not OPENROUTER_API_KEY:
+        raise Exception("OPENROUTER_API_KEY not configured")
+    response = requests.post(
+        "https://openrouter.ai/api/v1/embeddings",
+        headers={
+            "Authorization": f"Bearer {OPENROUTER_API_KEY}",
+            "Content-Type": "application/json"
+        },
+        json={
+            "model": model,
+            "input": texts
+        },
+        timeout=30
+    )
+    if response.status_code != 200:
+        raise Exception(f"OpenRouter API error: {response.status_code} - {response.text}")
+    result = response.json()
+    embeddings = [item["embedding"] for item in result["data"]]
+    return embeddings
 @app.on_event("startup")
 async def startup_event():
     load_models()
     models_loaded: List[str]
     voyage_available: bool
     fireworks_available: bool
+    openrouter_available: bool
     api_key_required: bool
 @app.get("/", response_model=dict)
         "models_loaded": models_loaded,
         "voyage_available": voyage_client is not None,
         "fireworks_available": fireworks_available,
+        "openrouter_available": openrouter_available,
         "api_key_required": REQUIRE_API_KEY
     }
     - `jobbertv2`: JobBERT-v2 (768-dim, job-specific)
     - `jobbertv3`: JobBERT-v3 (768-dim, job-specific, improved performance) - default
     - `jina`: Jina AI embeddings-v3 (1024-dim, general purpose)
+    - `qwen3`: Qwen3-Embedding-8B (4096-dim, MTEB #1, multilingual, 32k context, via Fireworks or OpenRouter)
+    - `openrouter`: OpenRouter embeddings (supports multiple models, requires API key)
     - `voyage`: Voyage AI (1024-dim, requires API key)
     **Jina AI Tasks (via query parameter):**
         except Exception as e:
             raise HTTPException(status_code=500, detail=f"Voyage AI error: {str(e)}")
+    elif model_name == "openrouter":
+        if not openrouter_available:
+            raise HTTPException(
+                status_code=503,
+                detail="OpenRouter not available. Set OPENROUTER_API_KEY environment variable."
+            )
+        try:
+            # Use OpenRouter with specified model or default
+            openrouter_model = task or "qwen/qwen3-embedding-8b"  # Use task param as model selector
+            embeddings_list = get_openrouter_embeddings(texts, model=openrouter_model)
+            # Calculate token usage
+            token_count = estimate_token_count(texts)
+            # Create OpenAI-compatible response
+            data = [
+                EmbeddingObject(index=i, embedding=emb)
+                for i, emb in enumerate(embeddings_list)
+            ]
+            return OpenAIEmbeddingResponse(
+                model=f"openrouter/{openrouter_model}",
+                object="list",
+                usage=UsageInfo(total_tokens=token_count, prompt_tokens=token_count),
+                data=data
+            )
+        except Exception as e:
+            raise HTTPException(status_code=500, detail=f"OpenRouter error: {str(e)}")
     elif model_name in MODELS:
         try:
             selected_model = MODELS[model_name]
             # Qwen3 via Fireworks AI API (no local model)
             if model_name == "qwen3" and selected_model == 'fireworks':
                 embeddings_list = get_fireworks_embeddings(texts, task=task)
+            # Qwen3 via OpenRouter API
+            elif model_name == "qwen3" and selected_model == 'openrouter':
+                embeddings_list = get_openrouter_embeddings(texts, model="qwen/qwen3-embedding-8b")
             # Jina AI with task type
             elif model_name == "jina" and task:
                 embeddings = selected_model.encode(
             # Qwen3 via Fireworks AI API (no local model)
             if model_name == "qwen3" and selected_model == 'fireworks':
                 embeddings_list = get_fireworks_embeddings(request.texts, task=request.task)
+            # Qwen3 via OpenRouter API
+            elif model_name == "qwen3" and selected_model == 'openrouter':
+                embeddings_list = get_openrouter_embeddings(request.texts, model="qwen/qwen3-embedding-8b")
             # Jina AI with task type
             elif model_name == "jina" and request.task:
                 embeddings = selected_model.encode(