Spaces:

regraded01
/

pdf-to-table

Running

pdf-to-table / src /pdfParser.py

refactor: move pdf read to the src

dc68d68 7 months ago

282 Bytes

	import PyPDF2
	import streamlit as st


	@st.cache_resource
	def get_pdf_text(filepath):
	# Open the PDF file in read-binary mode
	# Create a PDF object
	pdf = PyPDF2.PdfReader(filepath)
	pdf_text = " ".join([page.extract_text() for page in pdf.pages])
	return pdf_text