Spaces:

MLBench
/

Logistics-OCR-Text-Extractor

Running

App Files Files Community

mlbench123 commited on Nov 20, 2025

Commit

57e986c

verified ·

1 Parent(s): 9920573

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -22

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import json
 from pathlib import Path
 import gradio as gr
 from openai import OpenAI
 API_KEY = "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"
 MODEL = "gpt-5.1"
@@ -76,12 +77,12 @@ def prompt():
     )
-def extract_image(img):
-    """Process image input"""
-    ext = "png"  # always PNG internally from Gradio
-    b64 = base64.b64encode(img).decode()
     content = [
         {"type": "text", "text": prompt()},
@@ -96,14 +97,12 @@ def extract_image(img):
         messages=[{"role": "user", "content": content}]
     )
-    text = r.choices[0].message.content
-    s = text.find("{")
-    e = text.rfind("}")
-    return text[s:e+1]
 def extract_pdf(file):
-    """Process PDF input"""
     path = Path(file.name)
     fid = upload_pdf(path)
@@ -117,18 +116,16 @@ def extract_pdf(file):
         messages=[{"role": "user", "content": content}]
     )
-    text = r.choices[0].message.content
-    s = text.find("{")
-    e = text.rfind("}")
-    return text[s:e+1]
-def process(image_input, pdf_input):
-    if image_input is not None:
-        return extract_image(image_input)
-    if pdf_input is not None:
-        return extract_pdf(pdf_input)
     return "{}"
@@ -137,11 +134,10 @@ with gr.Blocks() as demo:
     gr.Markdown("# **Logistics OCR Data Extractor (GPT-5.1)**")
     with gr.Row():
-        image_input = gr.Image(type="bytes", label="Upload Image")
         pdf_input = gr.File(type="file", label="Upload PDF")
     output = gr.JSON(label="Extracted JSON")
     submit = gr.Button("Submit")
     submit.click(
@@ -156,7 +152,7 @@ with gr.Blocks() as demo:
             ["IMG_0002.jpg", None]
         ],
         inputs=[image_input, pdf_input],
-        label="Sample Images",
     )
 demo.launch(share=True)

 from pathlib import Path
 import gradio as gr
 from openai import OpenAI
+from PIL import Image
 API_KEY = "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"
 MODEL = "gpt-5.1"
     )
+def extract_image(path):
+    """Process image via filepath"""
+    img_bytes = Path(path).read_bytes()
+    ext = Path(path).suffix.replace(".", "").lower()
+    b64 = base64.b64encode(img_bytes).decode()
     content = [
         {"type": "text", "text": prompt()},
         messages=[{"role": "user", "content": content}]
     )
+    t = r.choices[0].message.content
+    return t[t.find("{"): t.rfind("}") + 1]
 def extract_pdf(file):
+    """Process PDF"""
     path = Path(file.name)
     fid = upload_pdf(path)
         messages=[{"role": "user", "content": content}]
     )
+    t = r.choices[0].message.content
+    return t[t.find("{"): t.rfind("}") + 1]
+def process(image_path, pdf_file):
+    if image_path:
+        return extract_image(image_path)
+    if pdf_file:
+        return extract_pdf(pdf_file)
     return "{}"
     gr.Markdown("# **Logistics OCR Data Extractor (GPT-5.1)**")
     with gr.Row():
+        image_input = gr.Image(type="filepath", label="Upload Image")
         pdf_input = gr.File(type="file", label="Upload PDF")
     output = gr.JSON(label="Extracted JSON")
     submit = gr.Button("Submit")
     submit.click(
             ["IMG_0002.jpg", None]
         ],
         inputs=[image_input, pdf_input],
+        label="Sample Images"
     )
 demo.launch(share=True)