Spaces:

Rox-Turbo
/

API

Running

App Files Files Community

Rox-Turbo commited on Mar 10

Commit

44bcbbf

verified ·

1 Parent(s): 86666bd

Upload 6 files

Browse files

Files changed (6) hide show

.dockerignore +15 -0
Dockerfile +22 -0
README.md +100 -11
docker-compose.yml +12 -0
requirements.txt +4 -0
server.py +162 -0

.dockerignore ADDED Viewed

	@@ -0,0 +1,15 @@

+__pycache__/
+*.py[cod]
+*.pyo
+*.pyd
+.Python
+env/
+venv/
+.venv/
+build/
+dist/
+*.egg-info/
+.git
+.gitignore
+.env

Dockerfile ADDED Viewed

	@@ -0,0 +1,22 @@

+FROM python:3.11-slim
+WORKDIR /app
+ENV PYTHONDONTWRITEBYTECODE=1 \
+    PYTHONUNBUFFERED=1
+RUN groupadd --system app && useradd --system --gid app app
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY . .
+RUN chown -R app:app /app
+USER app
+# NVIDIA_API_KEY must be provided at runtime (docker run -e ... or env_file)
+EXPOSE 8000
+CMD ["uvicorn", "server:app", "--host", "0.0.0.0", "--port", "8000"]

README.md CHANGED Viewed

@@ -1,11 +1,100 @@
----
-title: API
-emoji: ⚡
-colorFrom: purple
-colorTo: blue
-sdk: docker
-pinned: false
-short_description: API
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+## NVIDIA Chat Proxy API
+This is a small FastAPI server that proxies requests from your static website to the NVIDIA/`OpenAI` compatible endpoint, so your API key stays on the server and is never exposed in the browser.
+### 1. Setup
+Create and activate a virtual environment (optional but recommended), then install dependencies:
+```bash
+pip install -r requirements.txt
+```
+Create a `.env` file in this folder:
+```bash
+echo NVIDIA_API_KEY=your_real_nvidia_key_here > .env
+```
+> **Important**: Never commit your real key to git or paste it in client-side code.
+### 2. Run the server
+```bash
+python server.py
+```
+The API will be available at `http://localhost:8000`.
+### 3. HTTP API
+**Endpoint**: `POST /chat`
+**Request body**:
+```json
+{
+  "messages": [
+    { "role": "user", "content": "Hello!" }
+  ],
+  "temperature": 1.0,
+  "top_p": 1.0,
+  "max_tokens": 512
+}
+```
+**Response body**:
+```json
+{
+  "content": "Model reply here..."
+}
+```
+### 4. Example usage from a static website
+```html
+<!DOCTYPE html>
+<html>
+  <head>
+    <meta charset="UTF-8" />
+    <title>Chat with NVIDIA Model</title>
+  </head>
+  <body>
+    <textarea id="input" placeholder="Ask something..."></textarea>
+    <button id="send">Send</button>
+    <pre id="output"></pre>
+    <script>
+      const API_URL = "http://localhost:8000/chat"; // or your deployed URL
+      document.getElementById("send").addEventListener("click", async () => {
+        const userText = document.getElementById("input").value;
+        const body = {
+          messages: [{ role: "user", content: userText }],
+          temperature: 1,
+          top_p: 1,
+          max_tokens: 512,
+        };
+        const res = await fetch(API_URL, {
+          method: "POST",
+          headers: { "Content-Type": "application/json" },
+          body: JSON.stringify(body),
+        });
+        if (!res.ok) {
+          document.getElementById("output").textContent =
+            "Error: " + (await res.text());
+          return;
+        }
+        const data = await res.json();
+        document.getElementById("output").textContent = data.content;
+      });
+    </script>
+  </body>
+  </html>
+```

docker-compose.yml ADDED Viewed

	@@ -0,0 +1,12 @@

+version: "3.9"
+services:
+  nvidia-chat-proxy:
+    build: .
+    container_name: nvidia-chat-proxy
+    ports:
+      - "8000:8000"
+    env_file:
+      - .env
+    restart: unless-stopped

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+fastapi
+uvicorn
+openai
+python-dotenv

server.py ADDED Viewed

	@@ -0,0 +1,162 @@

+import logging
+import os
+from typing import List, Optional
+from dotenv import load_dotenv
+from fastapi import FastAPI, HTTPException
+from fastapi.middleware.cors import CORSMiddleware
+from pydantic import BaseModel
+from openai import OpenAI
+load_dotenv()
+logger = logging.getLogger("nvidia_chat_proxy")
+logging.basicConfig(level=logging.INFO)
+NVIDIA_API_KEY = os.getenv("NVIDIA_API_KEY")
+if not NVIDIA_API_KEY:
+    # Fail fast on startup rather than at first request.
+    raise RuntimeError(
+        "NVIDIA_API_KEY environment variable is not set. "
+        "Create a .env file or set it in your environment."
+    )
+client = OpenAI(
+    base_url="https://integrate.api.nvidia.com/v1",
+    api_key=NVIDIA_API_KEY,
+)
+app = FastAPI(title="NVIDIA Chat Proxy API")
+# Adjust this list to only include your real frontend origins in production.
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],  # e.g. ["https://your-site.com"]
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+class ChatMessage(BaseModel):
+    role: str
+    content: str
+class ChatRequest(BaseModel):
+    messages: List[ChatMessage]
+    temperature: Optional[float] = 1.0
+    top_p: Optional[float] = 1.0
+    max_tokens: Optional[int] = 4096
+class ChatResponse(BaseModel):
+    content: str
+class HFParameters(BaseModel):
+    temperature: Optional[float] = None
+    top_p: Optional[float] = None
+    max_new_tokens: Optional[int] = None
+class HFRequest(BaseModel):
+    inputs: str
+    parameters: Optional[HFParameters] = None
+class HFResponseItem(BaseModel):
+    generated_text: str
+@app.post("/chat", response_model=ChatResponse)
+def chat(req: ChatRequest):
+    try:
+        completion = client.chat.completions.create(
+            model="openai/gpt-oss-120b",
+            messages=[m.dict() for m in req.messages],
+            temperature=req.temperature,
+            top_p=req.top_p,
+            max_tokens=req.max_tokens,
+            stream=False,
+        )
+    except Exception as e:
+        logger.exception("Error while calling NVIDIA chat completion for /chat")
+        # Do not leak internal error details to the client.
+        raise HTTPException(
+            status_code=500,
+            detail="Internal server error while calling upstream model.",
+        ) from e
+    # Combine all response message parts into a single string
+    try:
+        content = completion.choices[0].message.content or ""
+    except Exception:
+        logger.exception("Unexpected response format from NVIDIA API for /chat")
+        raise HTTPException(
+            status_code=502,
+            detail="Bad response from upstream model provider.",
+        )
+    return ChatResponse(content=content)
+@app.post("/hf/generate", response_model=List[HFResponseItem])
+def hf_generate(req: HFRequest):
+    """
+    Hugging Face-style text-generation endpoint.
+    Request:
+    {
+      "inputs": "your prompt",
+      "parameters": {
+        "temperature": 0.7,
+        "top_p": 0.95,
+        "max_new_tokens": 256
+      }
+    }
+    Response:
+    [
+      { "generated_text": "..." }
+    ]
+    """
+    params = req.parameters or HFParameters()
+    try:
+        completion = client.chat.completions.create(
+            model="openai/gpt-oss-120b",
+            messages=[{"role": "user", "content": req.inputs}],
+            temperature=params.temperature if params.temperature is not None else 1.0,
+            top_p=params.top_p if params.top_p is not None else 1.0,
+            max_tokens=params.max_new_tokens if params.max_new_tokens is not None else 4096,
+            stream=False,
+        )
+    except Exception as e:
+        logger.exception("Error while calling NVIDIA chat completion for /hf/generate")
+        raise HTTPException(
+            status_code=500,
+            detail="Internal server error while calling upstream model.",
+        ) from e
+    try:
+        content = completion.choices[0].message.content or ""
+    except Exception:
+        logger.exception("Unexpected response format from NVIDIA API for /hf/generate")
+        raise HTTPException(
+            status_code=502,
+            detail="Bad response from upstream model provider.",
+        )
+    # Match the common HF text-generation API: list of objects with generated_text
+    return [HFResponseItem(generated_text=content)]
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run("server:app", host="0.0.0.0", port=8000, reload=True)