Spaces:

BhagatSurya
/

convet_pdf_to_txt

Runtime error

App Files Files Community

BhagatSurya commited on Jun 20, 2023

Commit

26072cc

1 Parent(s): 5a9a58b

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -18

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import gradio as gr
 import tempfile
 import re
-from PyPDF2 import PdfReader, PdfFileReader
 import os
 import spacy
 import pytesseract
@@ -12,6 +11,9 @@ from pdf2image.exceptions import (
     PDFPageCountError,
     PDFSyntaxError
 )
 def clean_text(text):
     nlp = spacy.load("en_core_web_sm", disable=["tagger", "parser", "ner", "textcat"])
@@ -25,30 +27,29 @@ def image_to_latex(image):
     result = subprocess.run(["pix2tex", image_path], capture_output=True, text=True)
     return result.stdout
 def pdf_to_text(file):
-    with open(file.name, 'rb') as f:
-        reader = PdfReader(f)
-        full_text = ''
-        for i, page in enumerate(reader.pages):
-            page_text = page.extract_text()
-            if page_text is None:
-                images = pdf2image.convert_from_path(file.name, first_page=i+1, last_page=i+2)
-                for image in images:
-                    page_text = image_to_latex(image)
-            page_text = clean_text(page_text)
-            if len(page_text.split()) > 5:
-                page_number = i + 1
-                page_text = "## Metadata: Page Number " + str(page_number) + "\n" + page_text
-                full_text += page_text + "\n\n"
     base_name = os.path.splitext(os.path.basename(file.name))[0]
     output_file_name = base_name + ".txt"
     with open(output_file_name, 'w') as f:
         f.write(full_text)
     return output_file_name, page_number
 iface = gr.Interface(fn=pdf_to_text,
                      inputs=gr.inputs.File(label="Your PDF"),
                      outputs=gr.outputs.File(label="Download TXT"),

 import gradio as gr
 import tempfile
 import re
 import os
 import spacy
 import pytesseract
     PDFPageCountError,
     PDFSyntaxError
 )
+import fitz  # PyMuPDF
+from PIL import Image
+import io
 def clean_text(text):
     nlp = spacy.load("en_core_web_sm", disable=["tagger", "parser", "ner", "textcat"])
     result = subprocess.run(["pix2tex", image_path], capture_output=True, text=True)
     return result.stdout
 def pdf_to_text(file):
+    doc = fitz.open(file.name)
+    full_text = ''
+    for i, page in enumerate(doc):
+        page_text = page.getText()
+        images = page.getImageList()
+        if images:
+            for image in images:
+                xref = image[0]
+                base_image = doc.extract_image(xref)
+                image = Image.open(io.BytesIO(base_image["image"]))
+                page_text += image_to_latex(image)
+        page_text = clean_text(page_text)
+        if len(page_text.split()) > 5:
+            page_number = i + 1
+            page_text = "## Metadata: Page Number " + str(page_number) + "\n" + page_text
+            full_text += page_text + "\n\n"
     base_name = os.path.splitext(os.path.basename(file.name))[0]
     output_file_name = base_name + ".txt"
     with open(output_file_name, 'w') as f:
         f.write(full_text)
     return output_file_name, page_number
 iface = gr.Interface(fn=pdf_to_text,
                      inputs=gr.inputs.File(label="Your PDF"),
                      outputs=gr.outputs.File(label="Download TXT"),