Spaces:

Instantnewdesign
/

document_extract

Sleeping

App Files Files Community

Instantnewdesign commited on Sep 26

Commit

112a8d7

verified ·

1 Parent(s): 8e5c430

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -16

app.py CHANGED Viewed

@@ -4,40 +4,30 @@ from PIL import Image
 import fitz  # PyMuPDF pour lire les PDFs
 import os
-# Init client
 model_path = "opendatalab/MinerU2.5-2509-1.2B"
-client = MinerUClient(
-    backend="transformers",
-    model_path=model_path,
-    device="cuda"   # Utilisation GPU obligatoire
-)
-def extract_from_file(file, progress=gr.Progress()):
-    progress(0, desc="Analyse du fichier...")
     # Vérifier si PDF ou image
     ext = os.path.splitext(file.name)[-1].lower()
     images = []
     if ext == ".pdf":
         doc = fitz.open(file.name)
-        total_pages = len(doc)
-        for i, page in enumerate(doc):
             pix = page.get_pixmap()
             img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
             images.append(img)
-            progress((i+1)/total_pages, desc=f"Conversion page {i+1}/{total_pages}")
     else:
         images.append(Image.open(file.name))
     results = []
-    for i, img in enumerate(images):
-        progress(i/len(images), desc=f"Extraction page {i+1}/{len(images)}")
         blocks = client.two_step_extract(img)
         text_blocks = [b.text for b in blocks if hasattr(b, "text")]
         results.append("\n".join(text_blocks))
-    progress(1, desc="Extraction terminée ✅")
     return "\n\n--- PAGE ---\n\n".join(results)
 demo = gr.Interface(
@@ -45,7 +35,7 @@ demo = gr.Interface(
     inputs=gr.File(type="filepath", label="Upload PDF or Image"),
     outputs=gr.Textbox(label="Extracted Text", lines=20),
     title="MinerU2.5 Document Extractor",
-    description="Upload a PDF or Image to extract structured text using MinerU2.5 with GPU."
 )
 demo.launch()

 import fitz  # PyMuPDF pour lire les PDFs
 import os
+# Init client (⚠️ sans "device")
 model_path = "opendatalab/MinerU2.5-2509-1.2B"
+client = MinerUClient(backend="transformers", model_path=model_path)
+def extract_from_file(file):
     # Vérifier si PDF ou image
     ext = os.path.splitext(file.name)[-1].lower()
     images = []
     if ext == ".pdf":
         doc = fitz.open(file.name)
+        for page in doc:
             pix = page.get_pixmap()
             img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
             images.append(img)
     else:
         images.append(Image.open(file.name))
     results = []
+    for img in images:
         blocks = client.two_step_extract(img)
         text_blocks = [b.text for b in blocks if hasattr(b, "text")]
         results.append("\n".join(text_blocks))
     return "\n\n--- PAGE ---\n\n".join(results)
 demo = gr.Interface(
     inputs=gr.File(type="filepath", label="Upload PDF or Image"),
     outputs=gr.Textbox(label="Extracted Text", lines=20),
     title="MinerU2.5 Document Extractor",
+    description="Upload a PDF or Image to extract structured text using MinerU2.5."
 )
 demo.launch()