Spaces:

DeepDiveDev
/

TransformoDocs-Demo

Sleeping

App Files Files Community

DeepDiveDev commited on Feb 26

Commit

d1bb7e2

verified ·

1 Parent(s): 30abd6a

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -12

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import gradio as gr
-from transformers import TrOCRProcessor, VisionEncoderDecoderModel, AutoProcessor, AutoModelForVision2Seq
 from PIL import Image
 import numpy as np
 import torch
@@ -8,23 +8,23 @@ import torch
 processor1 = TrOCRProcessor.from_pretrained("DeepDiveDev/transformodocs-ocr")
 model1 = VisionEncoderDecoderModel.from_pretrained("DeepDiveDev/transformodocs-ocr")
-# Load the fallback model (allenai/olmOCR-7B-0225-preview)
-model2 = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-handwritten")
 processor2 = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
 # Function to extract text using both models
 def extract_text(image):
     try:
-        # Convert input to PIL Image
-        if isinstance(image, np.ndarray):
             image = Image.fromarray(image)
         else:
-            image = Image.open(image).convert("RGB")
-        # Preprocessing
-        image = image.convert("L")  # Convert to grayscale for better OCR
-        image = image.resize((640, 640))  # Resize to improve accuracy
         # Process with the primary model
         pixel_values = processor1(images=image, return_tensors="pt").pixel_values
@@ -32,7 +32,7 @@ def extract_text(image):
         extracted_text = processor1.batch_decode(generated_ids, skip_special_tokens=True)[0]
         # If output seems incorrect, use the fallback model
-        if len(extracted_text.strip()) < 2:  # If output is too short, retry with second model
             inputs = processor2(images=image, return_tensors="pt").pixel_values
             generated_ids = model2.generate(inputs)
             extracted_text = processor2.batch_decode(generated_ids, skip_special_tokens=True)[0]
@@ -51,4 +51,4 @@ iface = gr.Interface(
     description="Upload a handwritten document and get the extracted text.",
 )
-iface.launch()

 import gradio as gr
+from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 from PIL import Image
 import numpy as np
 import torch
 processor1 = TrOCRProcessor.from_pretrained("DeepDiveDev/transformodocs-ocr")
 model1 = VisionEncoderDecoderModel.from_pretrained("DeepDiveDev/transformodocs-ocr")
+# Load the fallback model (microsoft/trocr-base-handwritten)
 processor2 = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
+model2 = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-handwritten")
 # Function to extract text using both models
 def extract_text(image):
     try:
+        # Ensure the input is a PIL image
+        if isinstance(image, np.ndarray):
+            if len(image.shape) == 2:  # Grayscale (H, W), convert to RGB
+                image = np.stack([image] * 3, axis=-1)
             image = Image.fromarray(image)
         else:
+            image = Image.open(image).convert("RGB")  # Ensure RGB mode
+        # Resize for better accuracy
+        image = image.resize((640, 640))
         # Process with the primary model
         pixel_values = processor1(images=image, return_tensors="pt").pixel_values
         extracted_text = processor1.batch_decode(generated_ids, skip_special_tokens=True)[0]
         # If output seems incorrect, use the fallback model
+        if len(extracted_text.strip()) < 2:
             inputs = processor2(images=image, return_tensors="pt").pixel_values
             generated_ids = model2.generate(inputs)
             extracted_text = processor2.batch_decode(generated_ids, skip_special_tokens=True)[0]
     description="Upload a handwritten document and get the extracted text.",
 )
+iface.launch()