Spaces:

1oscon
/

PaddleOCR

Runtime error

App Files Files Community

1oscon commited on 25 days ago

Commit

393a4a4

verified ·

1 Parent(s): ec4758b

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -13

app.py CHANGED Viewed

@@ -1,23 +1,22 @@
 import gradio as gr
-import spaces  # 确保导入spaces
 from paddleocr import PaddleOCR
 import fitz  # PyMuPDF
 from PIL import Image
 import numpy as np
 import os
-import time
 # --- 配置 ---
-OUTPUT_DIR = "output_results" # 保存结果的文件夹
 os.makedirs(OUTPUT_DIR, exist_ok=True)
 # --- 模型加载器 ---
 def load_gpu_model():
-    print("正在加载PaddleOCR GPU模型...")
-    # --- 核心修正：移除了所有在新版本中不被支持的参数 ---
-    # 新版PaddleOCR会自动检测并使用GPU
-    ocr_model = PaddleOCR(use_textline_orientation=True, lang='ch')
-    print("GPU模型加载完成。")
     return ocr_model
 # --- Gradio调用的核心处理函数 ---
@@ -30,12 +29,12 @@ def process_pdf_max_speed(pdf_file, progress=gr.Progress(track_tqdm=True)):
         return "请先上传一个PDF文件。", None
     try:
-        # 在GPU会话中加载模型
         ocr = load_gpu_model()
         doc = fitz.open(pdf_file.name)
         total_pages = len(doc)
-        batch_size = 4  # 批处理大小，一次性处理4页
         full_text_result = []
         for i in progress.tqdm(range(0, total_pages, batch_size), desc="🚀 批处理中..."):
@@ -48,7 +47,8 @@ def process_pdf_max_speed(pdf_file, progress=gr.Progress(track_tqdm=True)):
                 batch_images.append(np.array(img))
             if batch_images:
-                results = ocr.ocr(batch_images)
                 for page_index, page_result in enumerate(results):
                     page_texts = []
@@ -78,8 +78,8 @@ def process_pdf_max_speed(pdf_file, progress=gr.Progress(track_tqdm=True)):
 with gr.Blocks(title="极速PDF识别器", theme=gr.themes.Soft()) as demo:
     gr.Markdown(
         """
-        # 🔥 极速PDF识别器 (GPU加速版) 🔥
-        **速度拉满！实时进度显示，但处理期间请勿关闭页面。**
         """
     )

 import gradio as gr
+import spaces
 from paddleocr import PaddleOCR
 import fitz  # PyMuPDF
 from PIL import Image
 import numpy as np
 import os
 # --- 配置 ---
+OUTPUT_DIR = "output_results"
 os.makedirs(OUTPUT_DIR, exist_ok=True)
 # --- 模型加载器 ---
+# 这个函数会在GPU会话中被调用
 def load_gpu_model():
+    print("正在加载经过版本锁定的PaddleOCR GPU模型...")
+    # 使用与锁定版本兼容的参数：use_gpu=True是必需的
+    ocr_model = PaddleOCR(use_angle_cls=True, lang='ch', use_gpu=True)
+    print("GPU模型加载成功。")
     return ocr_model
 # --- Gradio调用的核心处理函数 ---
         return "请先上传一个PDF文件。", None
     try:
+        # 在GPU会札中加载模型
         ocr = load_gpu_model()
         doc = fitz.open(pdf_file.name)
         total_pages = len(doc)
+        batch_size = 4  # 批处理大小
         full_text_result = []
         for i in progress.tqdm(range(0, total_pages, batch_size), desc="🚀 批处理中..."):
                 batch_images.append(np.array(img))
             if batch_images:
+                # 使用与锁定版本兼容的调用方式：需要 cls=True
+                results = ocr.ocr(batch_images, cls=True)
                 for page_index, page_result in enumerate(results):
                     page_texts = []
 with gr.Blocks(title="极速PDF识别器", theme=gr.themes.Soft()) as demo:
     gr.Markdown(
         """
+        # 🔥 极速PDF识别器 (GPU加速稳定版) 🔥
+        **速度拉满！实时进度显示，处理期间请勿关闭页面。**
         """
     )