Update utils.py
Browse files
utils.py
CHANGED
@@ -99,6 +99,9 @@ HF_WRITE = os.getenv("HF_WRITE")
|
|
99 |
# HfApi-Instanz erstellen
|
100 |
api = HfApi()
|
101 |
|
|
|
|
|
|
|
102 |
#################################################
|
103 |
#Gesetzte Werte für Pfade, Prompts und Keys..
|
104 |
#################################################
|
@@ -313,6 +316,11 @@ def load_word_with_metadata(file_path):
|
|
313 |
def split_documents_with_id(docs, text_splitter):
|
314 |
splits = []
|
315 |
for doc in docs:
|
|
|
|
|
|
|
|
|
|
|
316 |
doc_splits = text_splitter.split_text(f"{doc.metadata['title']} {doc.page_content}")
|
317 |
for split_content in doc_splits:
|
318 |
split_id = str(uuid.uuid4()) # Erzeuge eine eindeutige ID für jeden Split
|
@@ -370,11 +378,8 @@ def document_loading_splitting():
|
|
370 |
# Mapping von vorverarbeiteten Splits zu Originalsplits anhand der split_ids
|
371 |
split_to_original_mapping = {p_split.metadata["split_id"]: o_split for p_split, o_split in zip(preprocessed_splits, original_splits)}
|
372 |
|
373 |
-
|
374 |
-
|
375 |
-
for split in preprocessed_splits:
|
376 |
-
if 'divis' in split.page_content:
|
377 |
-
print("DIVIS found in chunk:", split)
|
378 |
|
379 |
return preprocessed_splits, split_to_original_mapping
|
380 |
|
|
|
99 |
# HfApi-Instanz erstellen
|
100 |
api = HfApi()
|
101 |
|
102 |
+
#Maoing für die Splits (orginal und Preprocessed
|
103 |
+
split_to_original_mapping = []
|
104 |
+
|
105 |
#################################################
|
106 |
#Gesetzte Werte für Pfade, Prompts und Keys..
|
107 |
#################################################
|
|
|
316 |
def split_documents_with_id(docs, text_splitter):
|
317 |
splits = []
|
318 |
for doc in docs:
|
319 |
+
if not doc.metadata['title']:
|
320 |
+
doc.metadata['title'] = "Dokument"
|
321 |
+
if not doc.page_content:
|
322 |
+
doc.page_content = "leer"
|
323 |
+
|
324 |
doc_splits = text_splitter.split_text(f"{doc.metadata['title']} {doc.page_content}")
|
325 |
for split_content in doc_splits:
|
326 |
split_id = str(uuid.uuid4()) # Erzeuge eine eindeutige ID für jeden Split
|
|
|
378 |
# Mapping von vorverarbeiteten Splits zu Originalsplits anhand der split_ids
|
379 |
split_to_original_mapping = {p_split.metadata["split_id"]: o_split for p_split, o_split in zip(preprocessed_splits, original_splits)}
|
380 |
|
381 |
+
# Sicherstellen, dass das Mapping nicht leer ist
|
382 |
+
assert split_to_original_mapping, "Das Mapping von Splits wurde nicht korrekt erstellt"
|
|
|
|
|
|
|
383 |
|
384 |
return preprocessed_splits, split_to_original_mapping
|
385 |
|