Spaces:

oki0ki
/

graniteapi

Runtime error

App Files Files Community

oki0ki commited on 3 days ago

Commit

f3bc30f

verified ·

1 Parent(s): 2085209

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -93

app.py CHANGED Viewed

@@ -1,96 +1,25 @@
 #!/usr/bin/env python3
-# -*- coding: utf-8 -*-
 """
-Ultralekki serwer OpenAI-compatible dla HF Spaces
-Model: unsloth/granite-4.1-3b-GGUF (UD-IQ2_M)
-✅ Brak auth | ✅ Streaming | ✅ Odporny na zerwania | ✅ Optymalizacja CPU/RAM
 """
 import os
 import sys
 import signal
-import asyncio
 import logging
-from contextlib import asynccontextmanager
 from huggingface_hub import hf_hub_download
-from fastapi import FastAPI, Request
-from fastapi.middleware.cors import CORSMiddleware
-from fastapi.responses import JSONResponse
-import uvicorn
-# ---------------- KONFIGURACJA ----------------
-MODEL_REPO = "unsloth/granite-4.1-3b-GGUF"
-MODEL_FILE = os.environ.get("MODEL_FILE", "granite-4.1-3b-UD-IQ2_M.gguf")
-PORT = int(os.environ.get("PORT", 7860))
-N_CTX = int(os.environ.get("N_CTX", 2048))        # Limit kontekstu dla oszczędności RAM
-N_THREADS = int(os.environ.get("N_THREADS", 2))    # Dopasowane do free tier HF
-N_BATCH = int(os.environ.get("N_BATCH", 512))
-MAX_CONCURRENCY = int(os.environ.get("MAX_CONCURRENCY", 3))
-# Wymuś CPU, wyłącz detekcję GPU i niepotrzebne overheady
-os.environ.update({
-    "LLAMA_NO_METAL": "1",
-    "LLAMA_NO_CUDA": "1",
-    "LLAMA_NO_VULKAN": "1",
-    "USE_MMAP": "1",
-    "USE_MLOCK": "0",
-    "FLASH_ATTN": "0",
-    "VERBOSE": "0"
-})
 logging.basicConfig(level=logging.INFO, format="%(levelname)s: %(message)s")
 logger = logging.getLogger(__name__)
-# ---------------- POBIERANIE MODELU ----------------
-def get_model_path() -> str:
-    logger.info(f"⬇️ Pobieranie/weryfikacja: {MODEL_REPO}/{MODEL_FILE}")
-    return hf_hub_download(repo_id=MODEL_REPO, filename=MODEL_FILE, resume_download=True)
-# ---------------- LIFECYCLE & APP ----------------
-@asynccontextmanager
-async def lifespan(app: FastAPI):
-    # Startup
-    model_path = get_model_path()
-    os.environ["MODEL"] = model_path
-    logger.info("📦 Model gotowy. Inicjalizacja llama.cpp server...")
-    # Importuj dopiero po ustawieniu envów (llama_cpp czyta je przy starcie)
-    import llama_cpp.server.app as server_module
-    app.mount("/", server_module.app)
-    yield
-    # Shutdown
-    logger.info("🛑 Zamykanie serwera...")
-app = FastAPI(title="Granite-4.1-3B-IQ2M OpenAI API", lifespan=lifespan)
-# ---------------- MIDDLEWARE & RESILIENCE ----------------
-app.add_middleware(
-    CORSMiddleware,
-    allow_origins=["*"],
-    allow_credentials=True,
-    allow_methods=["*"],
-    allow_headers=["*"],
-)
-@app.middleware("http")
-async def connection_resilience(request: Request, call_next):
-    try:
-        response = await call_next(request)
-        return response
-    except (BrokenPipeError, ConnectionResetError, asyncio.CancelledError):
-        # Ciche ignorowanie zerwanych połączeń klienckich (np. zamknięcie karty, timeout sieci)
-        logger.debug("🔌 Połączenie klienta zerwane – ignorowanie błędu")
-        return JSONResponse(status_code=499, content={"error": "Client closed request"})
-    except Exception as e:
-        logger.error(f"❌ Błąd serwera: {e}")
-        return JSONResponse(status_code=500, content={"error": str(e)})
-@app.get("/health")
-async def health():
-    return {"status": "ok", "model": MODEL_FILE, "ctx": N_CTX, "threads": N_THREADS}
-# ---------------- SIGNALS ----------------
 def graceful_shutdown(signum, frame):
     logger.info("📡 Otrzymano sygnał zakończenia. Zamykanie...")
     sys.exit(0)
@@ -98,17 +27,30 @@ def graceful_shutdown(signum, frame):
 signal.signal(signal.SIGTERM, graceful_shutdown)
 signal.signal(signal.SIGINT, graceful_shutdown)
-# ---------------- START ----------------
 if __name__ == "__main__":
-    logger.info(f"🚀 Start na porcie {PORT} | Context: {N_CTX} | Wątki: {N_THREADS} | Max concurrent: {MAX_CONCURRENCY}")
-    uvicorn.run(
-        app,
-        host="0.0.0.0",
-        port=PORT,
-        log_level="info",
-        timeout_keep_alive=120,      # Utrzymuje połączenie przy krótkich zrywach sieci
-        limit_concurrency=MAX_CONCURRENCY, # Chroni przed OOM na free tier
-        backlog=16,
-        ws_ping_interval=30,
-        ws_ping_timeout=10
-    )

 #!/usr/bin/env python3
 """
+Ultralekki entrypoint dla HF Spaces (Docker SDK)
+✅ Pobiera model z cache HF → uruchamia llama_cpp.server
+✅ OpenAI format | ✅ Brak auth | ✅ Odporny na zerwania | ✅ Optymalizacja CPU/RAM
 """
 import os
 import sys
 import signal
 import logging
 from huggingface_hub import hf_hub_download
 logging.basicConfig(level=logging.INFO, format="%(levelname)s: %(message)s")
 logger = logging.getLogger(__name__)
+MODEL_REPO = "unsloth/granite-4.1-3b-GGUF"
+MODEL_FILE = os.environ.get("MODEL_FILE", "granite-4.1-3b-UD-IQ2_M.gguf")
+PORT = os.environ.get("PORT", "7860")
+N_CTX = os.environ.get("N_CTX", "2048")
+N_THREADS = os.environ.get("N_THREADS", "2")
+N_BATCH = os.environ.get("N_BATCH", "512")
 def graceful_shutdown(signum, frame):
     logger.info("📡 Otrzymano sygnał zakończenia. Zamykanie...")
     sys.exit(0)
 signal.signal(signal.SIGTERM, graceful_shutdown)
 signal.signal(signal.SIGINT, graceful_shutdown)
 if __name__ == "__main__":
+    logger.info(f"⬇️ Pobieranie/weryfikacja: {MODEL_REPO}/{MODEL_FILE}")
+    model_path = hf_hub_download(
+        repo_id=MODEL_REPO,
+        filename=MODEL_FILE,
+        resume_download=True,
+        local_dir_use_symlinks=False
+    )
+    logger.info(f"✅ Model gotowy: {model_path}")
+    # Komenda startowa llama_cpp.server (wbudowany serwer OpenAI-compatible)
+    cmd = [
+        sys.executable, "-m", "llama_cpp.server",
+        "--model", model_path,
+        "--host", "0.0.0.0",
+        "--port", PORT,
+        "--n_ctx", N_CTX,
+        "--n_threads", N_THREADS,
+        "--n_batch", N_BATCH,
+        "--n_gpu_layers", "0",
+        "--use_mmap",
+        "--no_flash_attn"
+    ]
+    logger.info(f"🚀 Start serwera: {' '.join(cmd)}")
+    # execvp zastępuje proces Pythona serwerem → poprawna obsługa sygnałów Docker/HF
+    os.execvp(sys.executable, cmd)