newoz commited on
Commit
b59663b
·
1 Parent(s): ce08e63

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +7 -11
app.py CHANGED
@@ -1,6 +1,5 @@
1
  import streamlit as st
2
- import PyPDF2
3
- import io
4
 
5
  # Titre de l'application
6
  st.title("Afficher le texte d'un fichier PDF")
@@ -10,21 +9,18 @@ uploaded_file = st.file_uploader("Sélectionnez un fichier PDF", type=["pdf"])
10
 
11
  if uploaded_file is not None:
12
  # Lecture du contenu du fichier PDF
13
- pdf_reader = PyPDF2.PdfFileReader(uploaded_file)
14
 
15
- # Nombre total de pages dans le PDF
16
- num_pages = pdf_reader.numPages
17
-
18
  # Créez une liste pour stocker le texte de chaque page
19
  pdf_text = []
20
 
21
  # Parcourez toutes les pages et extrayez le texte
22
- for page_number in range(num_pages):
23
- page = pdf_reader.getPage(page_number)
24
- page_text = page.extractText()
25
  pdf_text.append(page_text)
26
 
27
  # Affichez le texte complet du PDF
28
  st.subheader("Texte complet du PDF:")
29
- full_text = " ".join(pdf_text)
30
- st.write(full_text)
 
1
  import streamlit as st
2
+ import fitz # Utilisation de PyMuPDF (PdfReader) pour extraire le texte depuis le PDF
 
3
 
4
  # Titre de l'application
5
  st.title("Afficher le texte d'un fichier PDF")
 
9
 
10
  if uploaded_file is not None:
11
  # Lecture du contenu du fichier PDF
12
+ pdf_document = fitz.open(stream=uploaded_file.read(), filetype="pdf")
13
 
 
 
 
14
  # Créez une liste pour stocker le texte de chaque page
15
  pdf_text = []
16
 
17
  # Parcourez toutes les pages et extrayez le texte
18
+ for page_number in range(pdf_document.page_count):
19
+ page = pdf_document.load_page(page_number)
20
+ page_text = page.get_text()
21
  pdf_text.append(page_text)
22
 
23
  # Affichez le texte complet du PDF
24
  st.subheader("Texte complet du PDF:")
25
+ full_text = "\n".join(pdf_text)
26
+ st.text(full_text)