Spaces:

DexterSptizu
/

pymupdf-pdf-data-extraction

Running

DexterSptizu commited on 3 days ago

Commit

7019e8e

•

1 Parent(s): 3072a5f

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+import streamlit as st
+import pymupdf
+import io
+st.set_page_config(layout="wide", page_title="PDF Text Extractor")
+st.title("PDF Text Extractor")
+st.markdown("Upload a PDF file to extract and view its formatted text.")
+uploaded_file = st.file_uploader("Choose a PDF file", type="pdf")
+if uploaded_file is not None:
+    # Read the PDF file
+    pdf_data = uploaded_file.read()
+    # Open the PDF using pymupdf
+    doc = pymupdf.open(stream=io.BytesIO(pdf_data), filetype="pdf")
+    # Extract text from each page
+    for page_num, page in enumerate(doc, 1):
+        st.header(f"Page {page_num}")
+        text = page.get_text()
+        # Format the text
+        paragraphs = text.split('\n\n')
+        for paragraph in paragraphs:
+            if paragraph.strip():
+                st.markdown(paragraph)
+        st.markdown("---")  # Add a separator between pages
+    st.success("PDF text extraction completed!")