SucheRAG

Sleeping

App Files Files Community

alexkueck commited on Jul 6, 2024

Commit

ce120c3

verified ·

1 Parent(s): fc3ff31

Update utils.py

Browse files

Files changed (1) hide show

utils.py +22 -5

utils.py CHANGED Viewed

@@ -2,6 +2,7 @@ from typing import TYPE_CHECKING, Any, Callable, Dict, List, Tuple, Type
 import logging
 import json
 import os
 from datetime import datetime
 import hashlib
 import csv
@@ -304,7 +305,12 @@ def load_word_with_metadata(file_path):
 ################################################
 #die Inhalte splitten, um in Vektordatenbank entsprechend zu laden als Splits
 # Funktion zum Splitten und Zuweisen der doc_id
@@ -318,10 +324,9 @@ def split_documents_with_id(docs, text_splitter):
             splits.append(split_doc)
     return splits
 #finally die Splits erzeugen und laden.....
 def document_loading_splitting():
-    ##############################
-    # Document loading
     docs = []
     # kreiere einen DirectoryLoader für jeden file type
@@ -378,8 +383,8 @@ def document_loading_splitting():
     return preprocessed_splits,  split_to_original_mapping
 ###########################################
-#Chroma DB die splits ablegen - vektorisiert...
 def document_storage_chroma(splits):
     # Embedding-Funktion definieren
     embedding_fn = HuggingFaceEmbeddings(model_name=EMBEDDING_MODELL, model_kwargs={"device": "cpu"}, encode_kwargs={'normalize_embeddings': False})
@@ -389,6 +394,18 @@ def document_storage_chroma(splits):
     return vectorstore
 ###############################################

 import logging
 import json
 import os
+import pickle
 from datetime import datetime
 import hashlib
 import csv
+################################################
+#Vektorstore
+################################################
+################################################
+# Document Splitting
 ################################################
 #die Inhalte splitten, um in Vektordatenbank entsprechend zu laden als Splits
 # Funktion zum Splitten und Zuweisen der doc_id
             splits.append(split_doc)
     return splits
+########################################
 #finally die Splits erzeugen und laden.....
 def document_loading_splitting():
     docs = []
     # kreiere einen DirectoryLoader für jeden file type
     return preprocessed_splits,  split_to_original_mapping
 ###########################################
+#Vektorstore über Chroma DB die splits ablegen - vektorisiert...
+###########################################
 def document_storage_chroma(splits):
     # Embedding-Funktion definieren
     embedding_fn = HuggingFaceEmbeddings(model_name=EMBEDDING_MODELL, model_kwargs={"device": "cpu"}, encode_kwargs={'normalize_embeddings': False})
     return vectorstore
+########################################################
+#Vektorstore speichern - bzw. laden
+def save_vectorstore(vectorstore, filename="vectorstore.pkl"):
+    with open(filename, "wb") as f:
+        pickle.dump(vectorstore, f)
+def load_vectorstore(filename="vectorstore.pkl"):
+    if os.path.exists(filename):
+        with open(filename, "rb") as f:
+            return pickle.load(f)
+    return None
 ###############################################