Spaces:

bziiit
/

RAG-EC-Campagne-N1.1

Sleeping

App Files Files Community

LaurentTRIPIED commited on Mar 31

Commit

4375cde

•

1 Parent(s): 8bdb0b0

Create app.py

Browse files

Files changed (1) hide show

app.py +47 -0

app.py ADDED Viewed

	@@ -0,0 +1,47 @@

+import fitz  # Import de PyMuPDF
+import json
+import os
+def extract_text_from_pdf(pdf_path):
+    """
+    Extrait le texte de chaque page d'un fichier PDF.
+    :param pdf_path: Chemin vers le fichier PDF.
+    :return: Liste de dictionnaires avec le texte de chaque page et le numéro de page.
+    """
+    # Ouvre le fichier PDF
+    with fitz.open(pdf_path) as doc:
+        pages_text = []
+        # Parcourt chaque page
+        for page_num, page in enumerate(doc, start=1):
+            # Extrait le texte de la page
+            page_text = page.get_text()
+            pages_text.append({"page": page_num, "text": page_text})
+        return pages_text
+def save_text_to_json(data, output_file):
+    """
+    Sauvegarde le texte extrait dans un fichier JSON.
+    :param data: Les données à sauvegarder (liste de dictionnaires).
+    :param output_file: Chemin du fichier JSON de sortie.
+    """
+    with open(output_file, 'w', encoding='utf-8') as f:
+        json.dump(data, f, ensure_ascii=False, indent=4)
+# Chemin vers le fichier PDF dans le répertoire data/
+pdf_path = 'data/07-VF2_UDM_Oneframe_A4-2023.pdf'
+# Chemin du fichier JSON de sortie
+json_output_path = 'data/extracted_text.json'
+# Vérification de l'existence du répertoire data/
+if not os.path.exists('data'):
+    os.makedirs('data')
+# Extrait le texte du PDF
+pdf_text = extract_text_from_pdf(pdf_path)
+# Sauvegarde le texte dans un fichier JSON
+save_text_to_json(pdf_text, json_output_path)
+print(f"Le texte a été extrait et sauvegardé dans {json_output_path}")