newoz commited on
Commit
078e600
·
1 Parent(s): b5abbc4

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +1 -1
app.py CHANGED
@@ -2,7 +2,7 @@ import streamlit as st
2
  import fitz # Utilisation de PyMuPDF (PdfReader) pour extraire le texte depuis le PDF
3
 
4
  # Fonction pour extraire les longs paragraphes à partir du texte
5
- def extraire_long_paragraphes(texte, longueur_minimale=100):
6
  paragraphes = texte.split("\n\n") # Divise le texte en paragraphes en utilisant des doubles sauts de ligne
7
  longs_paragraphes = [paragraphe.strip() for paragraphe in paragraphes if len(paragraphe) >= longueur_minimale]
8
  return "\n\n".join(longs_paragraphes)
 
2
  import fitz # Utilisation de PyMuPDF (PdfReader) pour extraire le texte depuis le PDF
3
 
4
  # Fonction pour extraire les longs paragraphes à partir du texte
5
+ def extraire_long_paragraphes(texte, longueur_minimale=200):
6
  paragraphes = texte.split("\n\n") # Divise le texte en paragraphes en utilisant des doubles sauts de ligne
7
  longs_paragraphes = [paragraphe.strip() for paragraphe in paragraphes if len(paragraphe) >= longueur_minimale]
8
  return "\n\n".join(longs_paragraphes)