Spaces:

pdltiet
/

demo-gpu

Running on Zero

PyroSama commited on Apr 17, 2024

Commit

942ca32

verified ·

1 Parent(s): 36325f9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -24,6 +24,10 @@ from transformers import AutoProcessor
 model = SeamlessM4TForTextToText.from_pretrained("facebook/hf-seamless-m4t-medium")
 processor = AutoProcessor.from_pretrained("facebook/hf-seamless-m4t-medium")
 # OCR Predictor initialization
 OCRpredictor = ocr_predictor(det_arch='db_mobilenet_v3_large', reco_arch='crnn_vgg16_bn', pretrained=True)
@@ -65,19 +69,24 @@ def process_text_in_chunks(text, process_function, max_chunk_size=256):
     return processed_text.strip()
 @spaces.GPU(duration=120)
 def greet(img, apply_grammar_correction, apply_spell_check):
-    img.save("out.jpg")
-    doc = DocumentFile.from_images("out.jpg")
-    output = OCRpredictor(doc)
-    res = ""
-    for obj in output.pages:
-        for obj1 in obj.blocks:
-            for obj2 in obj1.lines:
-                for obj3 in obj2.words:
-                    res += " " + obj3.value
-            res += "\n"
-        res += "\n"
     # Process in chunks for grammar correction
     if apply_grammar_correction:
         res = process_text_in_chunks(res, lambda x: happy_tt.generate_text("grammar: " + x, args=grammar_args).text)

 model = SeamlessM4TForTextToText.from_pretrained("facebook/hf-seamless-m4t-medium")
 processor = AutoProcessor.from_pretrained("facebook/hf-seamless-m4t-medium")
+import pytesseract as pt
+import cv2
 # OCR Predictor initialization
 OCRpredictor = ocr_predictor(det_arch='db_mobilenet_v3_large', reco_arch='crnn_vgg16_bn', pretrained=True)
     return processed_text.strip()
 @spaces.GPU(duration=120)
 def greet(img, apply_grammar_correction, apply_spell_check):
+    # img.save("out.jpg")
+    # doc = DocumentFile.from_images("out.jpg")
+    # output = OCRpredictor(doc)
+    # res = ""
+    # for obj in output.pages:
+    #     for obj1 in obj.blocks:
+    #         for obj2 in obj1.lines:
+    #             for obj3 in obj2.words:
+    #                 res += " " + obj3.value
+    #         res += "\n"
+    #     res += "\n"
+    # img = cv2.imread(inputPath)
+    res = pt.image_to_string(img,lang='eng')
+    # print(text)
     # Process in chunks for grammar correction
     if apply_grammar_correction:
         res = process_text_in_chunks(res, lambda x: happy_tt.generate_text("grammar: " + x, args=grammar_args).text)