Spaces:

CassianK
/

deepseek-ocr-test

Running

App Files Files Community

CassianK commited on 8 days ago

Commit

5c7e360

verified ·

1 Parent(s): b94ccd9

Update app.py

Browse files

Files changed (1) hide show

app.py +86 -113

app.py CHANGED Viewed

@@ -1,95 +1,104 @@
-# app.py — DeepSeek-OCR (HF Space, Claude Skill ready)
-# 지원: /ocr API (REST) + Gradio UI
-# 호환: DeepSeek-OCR-main / DeepSeek-OCR-master / DeepSeek-OCR-hf
-import io, os, sys, base64, traceback
 from typing import Optional
 from PIL import Image
 import numpy as np
 import gradio as gr
-from fastapi import FastAPI, UploadFile, File, Body
-from fastapi.responses import JSONResponse
-# ─────────────────────────────────────────────
-# 1. 경로 자동 인식
-# ─────────────────────────────────────────────
 ROOT = os.path.dirname(__file__)
-CANDIDATES = [
     "DeepSeek-OCR-master",
-    "DeepSeek-OCR-hf",
     os.path.join("DeepSeek-OCR-main", "DeepSeek-OCR-master"),
     os.path.join("DeepSeek-OCR-main", "DeepSeek-OCR-hf"),
 ]
-for rel in CANDIDATES:
-    absdir = os.path.join(ROOT, rel)
-    if os.path.isdir(absdir) and absdir not in sys.path:
-        sys.path.append(absdir)
-        print(f"[path] added: {absdir}")
-# ─────────────────────────────────────────────
-# 2. DeepSeek-OCR 어댑터
-# ─────────────────────────────────────────────
-class DeepSeekOCRAdapter:
-    def __init__(self):
-        self.fn = None
-        # (1) deepseek_ocr.py
-        try:
-            import deepseek_ocr as dso
-            if hasattr(dso, "ocr_image"):
-                self.fn = lambda img, lang="auto": dso.ocr_image(img, lang=lang)
-                print("[Adapter] Using deepseek_ocr.ocr_image()")
-                return
-            if hasattr(dso, "DeepSeekOCR"):
-                model = dso.DeepSeekOCR()
-                self.fn = lambda img, lang="auto": model.recognize(img, lang=lang)
-                print("[Adapter] Using deepseek_ocr.DeepSeekOCR()")
-                return
-        except Exception as e:
-            print("[Adapter] deepseek_ocr import failed:", e)
-        # (2) run_dpsk_ocr.py (HF용)
         try:
-            import run_dpsk_ocr as runner
-            if hasattr(runner, "run"):
-                self.fn = lambda img, lang="auto": runner.run(img)
-                print("[Adapter] Using run_dpsk_ocr.run()")
                 return
-            if hasattr(runner, "infer"):
-                self.fn = lambda img, lang="auto": runner.infer(img)
-                print("[Adapter] Using run_dpsk_ocr.infer()")
-                return
-        except Exception as e:
-            print("[Adapter] run_dpsk_ocr import failed:", e)
-        # (3) run_dpsk_ocr_image.py (CLI 스타일)
-        try:
-            import run_dpsk_ocr_image as runner
-            for cand in ("run", "infer", "main"):
-                if hasattr(runner, cand):
-                    fn = getattr(runner, cand)
                     def _call(img, lang="auto", _fn=fn):
-                        import tempfile
-                        with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as tmp:
                             img.save(tmp.name)
-                            return str(_fn(tmp.name))
-                    self.fn = _call
-                    print(f"[Adapter] Using run_dpsk_ocr_image.{cand}()")
                     return
         except Exception as e:
-            print("[Adapter] run_dpsk_ocr_image import failed:", e)
         # fallback
-        self.fn = lambda img, lang="auto": "[DEMO] 연결 성공 — 실제 추론 함수 확인 필요."
-        print("[Adapter] ⚠️ DEMO fallback active.")
-    def recognize(self, image: Image.Image, lang="auto"):
-        return self.fn(image, lang)
-# ─────────────────────────────────────────────
-# 3. 유틸
-# ─────────────────────────────────────────────
 def _to_pil(x) -> Image.Image:
     if isinstance(x, Image.Image):
         return x.convert("RGB")
@@ -100,53 +109,17 @@ def _to_pil(x) -> Image.Image:
     raise TypeError("Unsupported image type")
 def _b64_to_image(image_b64: str) -> Image.Image:
     return _to_pil(base64.b64decode(image_b64))
-def _url_to_image(url: str) -> Image.Image:
-    import requests
-    r = requests.get(url, timeout=20)
-    r.raise_for_status()
-    return _to_pil(r.content)
-# ─────────────────────────────────────────────
-# 4. FastAPI
-# ─────────────────────────────────────────────
-api = FastAPI(title="DeepSeek-OCR API")
-_engine = DeepSeekOCRAdapter()
-@api.post("/ocr")
-async def ocr_endpoint(
-    image_b64: Optional[str] = Body(default=None),
-    image_url: Optional[str] = Body(default=None),
-    lang: str = Body(default="auto"),
-    file: Optional[UploadFile] = File(default=None),
-):
-    try:
-        if file:
-            image = _to_pil(await file.read())
-        elif image_b64:
-            image = _b64_to_image(image_b64)
-        elif image_url:
-            image = _url_to_image(image_url)
-        else:
-            return JSONResponse(status_code=400, content={"ok": False, "error": "No image input"})
-        text = _engine.recognize(image, lang)
-        return {"ok": True, "text": text}
-    except Exception as e:
-        return JSONResponse(status_code=500, content={"ok": False, "error": str(e), "trace": traceback.format_exc()})
-# ─────────────────────────────────────────────
-# 5. Gradio UI
-# ─────────────────────────────────────────────
-def gradio_predict(img, lang):
-    if img is None:
         return "No image provided."
-    return _engine.recognize(_to_pil(img), lang)
-with gr.Blocks(title="DeepSeek-OCR (Claude Ready)") as demo:
-    gr.Markdown("### DeepSeek-OCR (HF Space)\n이미지를 업로드하면 텍스트를 추출합니다.")
     with gr.Row():
         img = gr.Image(type="pil", label="Input Image")
         out = gr.Textbox(label="OCR Result", lines=8)
@@ -154,5 +127,5 @@ with gr.Blocks(title="DeepSeek-OCR (Claude Ready)") as demo:
     btn = gr.Button("Run OCR")
     btn.click(gradio_predict, inputs=[img, lang], outputs=[out])
-app = api  # FastAPI 엔진 노출
-demo.queue()  # 최신 gradio 버전에 맞게 수정

+# app.py — DeepSeek-OCR (HF Space, Gradio-only stable)
+# - Gradio UI 제공 (Claude Skill은 Gradio /run/predict API로 호출)
+# - deepseek_ocr.py 또는 run_dpsk_ocr_image.py를 파일경로로 직접 로드
+import io, os, sys, base64, importlib.util, tempfile, traceback
 from typing import Optional
 from PIL import Image
 import numpy as np
 import gradio as gr
 ROOT = os.path.dirname(__file__)
+# 후보 디렉터리: 루트/DeepSeek-OCR-master, DeepSeek-OCR-main/DeepSeek-OCR-master, DeepSeek-OCR-hf 등
+DIR_CANDIDATES = [
     "DeepSeek-OCR-master",
     os.path.join("DeepSeek-OCR-main", "DeepSeek-OCR-master"),
+    "DeepSeek-OCR-hf",
     os.path.join("DeepSeek-OCR-main", "DeepSeek-OCR-hf"),
 ]
+FILE_CANDIDATES = [
+    "deepseek_ocr.py",           # 함수형 또는 클래스형 엔트리 기대
+    "run_dpsk_ocr_image.py",     # CLI 스타일 엔트리 가능
+    "run_dpsk_ocr.py",           # HF 스크립트
+]
+def _find_file():
+    for d in DIR_CANDIDATES:
+        absd = os.path.join(ROOT, d)
+        if not os.path.isdir(absd):
+            continue
+        for fname in FILE_CANDIDATES:
+            path = os.path.join(absd, fname)
+            if os.path.isfile(path):
+                return path
+    return None
+def _load_module_from_path(path: str):
+    name = os.path.splitext(os.path.basename(path))[0]
+    spec = importlib.util.spec_from_file_location(name, path)
+    if spec is None or spec.loader is None:
+        raise ImportError(f"Cannot load module from {path}")
+    mod = importlib.util.module_from_spec(spec)
+    sys.modules[name] = mod
+    spec.loader.exec_module(mod)
+    return mod
+class OCRAdapter:
+    def __init__(self):
+        self.entry = None
+        self.mode = "demo"
+        self.path = _find_file()
+        print(f"[Adapter] candidate path: {self.path}")
+        if not self.path:
+            return
         try:
+            mod = _load_module_from_path(self.path)
+            # 1) 함수형 엔트리: ocr_image(image, lang="auto")
+            if hasattr(mod, "ocr_image"):
+                self.entry = lambda img, lang="auto": mod.ocr_image(img, lang=lang)
+                self.mode = "func_ocr_image"
+                print("[Adapter] using ocr_image(image, lang)")
                 return
+            # 2) 클래스형 엔트리: DeepSeekOCR().recognize(image, lang)
+            if hasattr(mod, "DeepSeekOCR"):
+                inst = mod.DeepSeekOCR()
+                if hasattr(inst, "recognize"):
+                    self.entry = lambda img, lang="auto": inst.recognize(img, lang=lang)
+                    self.mode = "class_recognize"
+                    print("[Adapter] using DeepSeekOCR().recognize(image, lang)")
+                    return
+            # 3) 스크립트/CLI형: run() / infer() / main() — 경로 요구 가능
+            for cand in ("run", "infer", "main", "predict"):
+                if hasattr(mod, cand):
+                    fn = getattr(mod, cand)
                     def _call(img, lang="auto", _fn=fn):
+                        # 이미지가 파일경로를 요구할 수 있으므로 임시 저장
+                        with tempfile.NamedTemporaryFile(suffix=".png", delete=True) as tmp:
                             img.save(tmp.name)
+                            try:
+                                return str(_fn(tmp.name))
+                            except TypeError:
+                                # 혹시 lang 등 다른 인자 구조일 경우 시도
+                                return str(_fn(tmp.name, lang=lang))
+                    self.entry = _call
+                    self.mode = f"script_{cand}"
+                    print(f"[Adapter] using {os.path.basename(self.path)}.{cand}(...) via temp file")
                     return
         except Exception as e:
+            print("[Adapter] load failed:", e)
+            print(traceback.format_exc())
         # fallback
+        self.entry = lambda img, lang="auto": "[DEMO] 연결 성공 — 실제 추론 함수 확인 필요."
+        self.mode = "demo"
+    def recognize(self, image: Image.Image, lang="auto") -> str:
+        return self.entry(image.convert("RGB"), lang)
+ADAPTER = OCRAdapter()
 def _to_pil(x) -> Image.Image:
     if isinstance(x, Image.Image):
         return x.convert("RGB")
     raise TypeError("Unsupported image type")
 def _b64_to_image(image_b64: str) -> Image.Image:
+    import base64
     return _to_pil(base64.b64decode(image_b64))
+# ── Gradio UI (Claude Skill은 /run/predict API 사용) ──
+def gradio_predict(image, lang):
+    if image is None:
         return "No image provided."
+    return ADAPTER.recognize(_to_pil(image), lang)
+with gr.Blocks(title="DeepSeek-OCR (HF Gradio)") as demo:
+    gr.Markdown("### DeepSeek-OCR (HF Space, Gradio)\n현재 모드: **" + ADAPTER.mode + "**  \n경로: " + str(ADAPTER.path))
     with gr.Row():
         img = gr.Image(type="pil", label="Input Image")
         out = gr.Textbox(label="OCR Result", lines=8)
     btn = gr.Button("Run OCR")
     btn.click(gradio_predict, inputs=[img, lang], outputs=[out])
+# Hugging Face (sdk: gradio)는 전역 변수 `demo`를 자동 실행합니다.
+# demo.queue()  # 필요시 사용 (버전별 인자 없이)