Spaces:

Guillaumedbx
/

AssistantJuridique2

Sleeping

App Files Files Community

Guillaumedbx commited on Jun 30

Commit

b7de8bc

1 Parent(s): baeaaf2

déplcement des scripts

Browse files

Files changed (4) hide show

setup_vectorstore.py +0 -166
archivemails.py → src/utils/archivemails.py +2 -2
codetravail.py → src/utils/codetravail.py +1 -1
jurisprudence.py → src/utils/jurisprudence.py +1 -1

setup_vectorstore.py DELETED Viewed

@@ -1,166 +0,0 @@
-# setup_vectorstore.py
-import os
-from langchain_community.document_loaders import DirectoryLoader
-from langchain_community.vectorstores import Chroma
-from langchain_text_splitters import RecursiveCharacterTextSplitter
-from src.utils.load_embeddings import get_local_embeddings
-from tqdm import tqdm
-# Fonction améliorée pour construire la base vectorielle
-# Ajoute : création dossier, logs détaillés, split conditionnel, barre de progression, vérification, nettoyage
-def build_vectorstore():
-    # Chemin de persistance (adapté pour Windows et Linux)
-    persist_directory = os.path.abspath("./data/db")
-    # Suppression complète du contenu du dossier db (y compris sous-dossiers UUID)
-    import shutil
-    if os.path.exists(persist_directory):
-        print(f"🗑️ Suppression complète du contenu de {persist_directory} ...")
-        shutil.rmtree(persist_directory)
-    os.makedirs(persist_directory, exist_ok=True)
-    print(f"📁 Persist directory : {persist_directory}")
-    print(f"📂 Contenu du dossier data : {os.listdir('./data')}")
-    # Chargement des fichiers dans le dossier 'data'
-    loader = DirectoryLoader("./data", glob="**/*.txt")
-    documents = loader.load()
-    print(f"📄 Nombre de documents chargés : {len(documents)}")
-    # Split conditionnel selon la taille du document
-    MIN_LEN_NO_SPLIT = 1000
-    splitter = RecursiveCharacterTextSplitter(
-        chunk_size=1000,
-        chunk_overlap=120,
-        separators=["\n\n", "\n", ".", " ", ""]
-    )
-    chunks = []
-    for doc in documents:
-        if len(doc.page_content) < MIN_LEN_NO_SPLIT:
-            chunks.append(doc)
-        else:
-            chunks.extend(splitter.split_documents([doc]))
-    print(f"📚 Nombre de chunks créés : {len(chunks)}")
-    # Embeddings
-    print("🔍 Création des embeddings...")
-    embeddings = get_local_embeddings()
-    # Création ou mise à jour de la base vectorielle avec barre de progression
-    print("🔄 Création ou mise à jour de la base vectorielle...")
-    vectordb = Chroma.from_documents(
-        list(tqdm(chunks, desc="Indexation des chunks", unit="chunk")),
-        embedding=embeddings,
-        persist_directory=persist_directory
-    )
-    print("📦 Base vectorielle créée avec succès.")
-    # Persistance
-    print("💾 Persistance de la base vectorielle en cours...")
-    vectordb.persist()
-    vectordb = None  # Libération de la mémoire
-    print("💾 Base vectorielle persistée avec succès.")
-    # Détection du sous-dossier UUID généré par Chroma
-    uuid_subdirs = [d for d in os.listdir(persist_directory) if os.path.isdir(os.path.join(persist_directory, d))]
-    if len(uuid_subdirs) == 1:
-        uuid_dir = os.path.join(persist_directory, uuid_subdirs[0])
-        print(f"🆔 Sous-dossier UUID détecté : {uuid_dir}")
-    else:
-        print(f"⚠️ Problème : nombre de sous-dossiers UUID dans db = {len(uuid_subdirs)}")
-        uuid_dir = persist_directory  # fallback
-    # Upload sur Hugging Face Hub : upload fichier par fichier à plat dans db/
-    try:
-        from huggingface_hub import HfApi, upload_file
-        repo_id = os.getenv("HF_REPO_ID")
-        token = os.getenv("HF_TOKEN") or os.getenv("HUGGINGFACEHUB_API_TOKEN")
-        if repo_id and token:
-            print(f"⬆️ Upload fichier par fichier du sous-dossier {uuid_dir} vers le repo Hugging Face Hub {repo_id} à plat dans db/")
-            api = HfApi()
-            # Suppression des anciens fichiers sur le Hub
-            remote_files = api.list_repo_files(repo_id=repo_id, repo_type="dataset", token=token)
-            uuid_prefix = "db/"
-            to_delete = [f for f in remote_files if f.startswith(uuid_prefix)]
-            print(f"Nombre de fichiers à supprimer sur le Hub : {len(to_delete)}")
-            for f in to_delete:
-                print(f"🗑️ Suppression sur le Hub : {f}")
-                api.delete_file(path_in_repo=f, repo_id=repo_id, repo_type="dataset", token=token)
-            print("✅ Suppression des anciens fichiers terminée.")
-            # Upload fichier par fichier à plat
-            import glob
-            import pathlib
-            files_to_upload = [f for f in glob.glob(os.path.join(uuid_dir, "**"), recursive=True) if os.path.isfile(f)]
-            print(f"Nombre de fichiers à uploader : {len(files_to_upload)}")
-            for f in files_to_upload:
-                rel_path = os.path.basename(f)  # à plat dans db/
-                dest_path = f"db/{rel_path}"
-                print(f"⬆️ Upload : {f} -> {dest_path}")
-                upload_file(
-                    path_or_fileobj=f,
-                    path_in_repo=dest_path,
-                    repo_id=repo_id,
-                    repo_type="dataset",
-                    token=token,
-                    commit_message=f"Upload {rel_path}"
-                )
-            print("✅ Upload fichier par fichier terminé.")
-            # Vérification post-upload
-            remote_files_after = api.list_repo_files(repo_id=repo_id, repo_type="dataset", token=token)
-            print(f"Fichiers présents sur le Hub après upload : {remote_files_after}")
-            if len(remote_files_after) == 0:
-                print(f"❌ ERREUR : Aucun fichier trouvé sur le Hub après upload !")
-            else:
-                print(f"✅ {len(remote_files_after)} fichiers présents sur le Hub après upload.")
-        else:
-            print("⚠️ Variables d'environnement HF_REPO_ID ou token non définies. Upload Hugging Face Hub ignoré.")
-    except Exception as e:
-        print(f"⚠️ Erreur lors de l'upload Hugging Face Hub : {e}")
-    # Vérification du contenu de la base vectorielle
-    print("🔍 Vérification du contenu de la base vectorielle...")
-    vectordb = Chroma(persist_directory=persist_directory, embedding_function=embeddings)
-    print(f"📊 Nombre de documents dans la base vectorielle : {len(vectordb)}")
-    print("✅ Base vectorielle prête à l'emploi.")
-    # Nettoyage
-    print("🧹 Nettoyage de la mémoire en cours...")
-    vectordb = None
-    print("🧹 Nettoyage de la mémoire terminé.")
-    print("✅ Processus de création de la base vectorielle terminé avec succès.")
-# Ajout : restauration de la base vectorielle depuis le Hugging Face Hub si elle existe
-try:
-    from huggingface_hub import snapshot_download
-    repo_id = os.getenv("HF_REPO_ID")
-    token = os.getenv("HF_TOKEN") or os.getenv("HUGGINGFACEHUB_API_TOKEN")
-    if repo_id and token:
-        print(f"⬇️ Téléchargement de tous les fichiers db/* depuis le repo Hugging Face Hub {repo_id} ...")
-        # Suppression complète du dossier local avant restauration
-        import shutil
-        if os.path.exists("./data/db"):
-            print("🗑️ Suppression du dossier local ./data/db avant restauration ...")
-            shutil.rmtree("./data/db")
-        # Téléchargement de tous les fichiers db/*
-        snapshot_download(
-            repo_id=repo_id,
-            repo_type="dataset",
-            local_dir="./data/db",
-            allow_patterns=["db/*"],
-            token=token,
-            local_dir_use_symlinks=False
-        )
-        print("✅ Tous les fichiers db/* restaurés depuis le Hub.")
-    else:
-        print("⚠️ Variables d'environnement HF_REPO_ID ou token non définies. Restauration ignorée.")
-except Exception as e:
-    print(f"⚠️ Erreur lors de la restauration Hugging Face Hub : {e}")
-# Point d'entrée du script pour construire la base vectorielle
-# Cette partie du code est exécutée lorsque le script est lancé directement.
-# Elle appelle la fonction build_vectorstore pour initialiser la base vectorielle.
-# Cela permet de préparer la base vectorielle avant d'utiliser l'application principale.
-if __name__ == "__main__":
-    try:
-        build_vectorstore()
-    except Exception as e:
-        print(f"❌ Une erreur est survenue : {e}")

archivemails.py → src/utils/archivemails.py RENAMED Viewed

@@ -4,9 +4,9 @@ from langchain_community.vectorstores import Chroma
 from langchain_community.embeddings import HuggingFaceEmbeddings
 # Paramètres
-DB_PATH = os.path.abspath("./db")
 EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
-ARCHIVE_DIR = os.path.abspath("./data/archives_mails")
 print("[INFO] Chargement des mails depuis :", ARCHIVE_DIR)
 mail_files = [f for f in os.listdir(ARCHIVE_DIR) if os.path.isfile(os.path.join(ARCHIVE_DIR, f))]

 from langchain_community.embeddings import HuggingFaceEmbeddings
 # Paramètres
+DB_PATH = os.path.abspath("../../db")
 EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
+ARCHIVE_DIR = os.path.abspath("../../data/archives_mails")
 print("[INFO] Chargement des mails depuis :", ARCHIVE_DIR)
 mail_files = [f for f in os.listdir(ARCHIVE_DIR) if os.path.isfile(os.path.join(ARCHIVE_DIR, f))]

codetravail.py → src/utils/codetravail.py RENAMED Viewed

@@ -8,7 +8,7 @@ import time
 # Paramètres
 CHUNK_SIZE = 500
 CHUNK_OVERLAP = 100
-DB_PATH = os.path.abspath("./db")  # Chemin racine du projet
 EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
 print("[INFO] Chargement du dataset Code du Travail...")

 # Paramètres
 CHUNK_SIZE = 500
 CHUNK_OVERLAP = 100
+DB_PATH = os.path.abspath("../../db")  # Chemin racine du projet
 EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
 print("[INFO] Chargement du dataset Code du Travail...")

jurisprudence.py → src/utils/jurisprudence.py RENAMED Viewed

@@ -7,7 +7,7 @@ from langchain_community.embeddings import HuggingFaceEmbeddings
 # Paramètres
 CHUNK_SIZE = 500
 CHUNK_OVERLAP = 100
-DB_PATH = os.path.abspath("./db")
 EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
 ARCHIVE_DIR = os.path.abspath("./data/archives_mails")
 JURIS_DIR = os.path.abspath("./data/jurisprudence")

 # Paramètres
 CHUNK_SIZE = 500
 CHUNK_OVERLAP = 100
+DB_PATH = os.path.abspath("../../db")  # Chemin racine du projet
 EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
 ARCHIVE_DIR = os.path.abspath("./data/archives_mails")
 JURIS_DIR = os.path.abspath("./data/jurisprudence")