alexkueck commited on
Commit
ce5c639
1 Parent(s): e5f92c6

Update utils.py

Browse files
Files changed (1) hide show
  1. utils.py +10 -5
utils.py CHANGED
@@ -99,6 +99,9 @@ HF_WRITE = os.getenv("HF_WRITE")
99
  # HfApi-Instanz erstellen
100
  api = HfApi()
101
 
 
 
 
102
  #################################################
103
  #Gesetzte Werte für Pfade, Prompts und Keys..
104
  #################################################
@@ -313,6 +316,11 @@ def load_word_with_metadata(file_path):
313
  def split_documents_with_id(docs, text_splitter):
314
  splits = []
315
  for doc in docs:
 
 
 
 
 
316
  doc_splits = text_splitter.split_text(f"{doc.metadata['title']} {doc.page_content}")
317
  for split_content in doc_splits:
318
  split_id = str(uuid.uuid4()) # Erzeuge eine eindeutige ID für jeden Split
@@ -370,11 +378,8 @@ def document_loading_splitting():
370
  # Mapping von vorverarbeiteten Splits zu Originalsplits anhand der split_ids
371
  split_to_original_mapping = {p_split.metadata["split_id"]: o_split for p_split, o_split in zip(preprocessed_splits, original_splits)}
372
 
373
-
374
- print("Splits...........................")
375
- for split in preprocessed_splits:
376
- if 'divis' in split.page_content:
377
- print("DIVIS found in chunk:", split)
378
 
379
  return preprocessed_splits, split_to_original_mapping
380
 
 
99
  # HfApi-Instanz erstellen
100
  api = HfApi()
101
 
102
+ #Maoing für die Splits (orginal und Preprocessed
103
+ split_to_original_mapping = []
104
+
105
  #################################################
106
  #Gesetzte Werte für Pfade, Prompts und Keys..
107
  #################################################
 
316
  def split_documents_with_id(docs, text_splitter):
317
  splits = []
318
  for doc in docs:
319
+ if not doc.metadata['title']:
320
+ doc.metadata['title'] = "Dokument"
321
+ if not doc.page_content:
322
+ doc.page_content = "leer"
323
+
324
  doc_splits = text_splitter.split_text(f"{doc.metadata['title']} {doc.page_content}")
325
  for split_content in doc_splits:
326
  split_id = str(uuid.uuid4()) # Erzeuge eine eindeutige ID für jeden Split
 
378
  # Mapping von vorverarbeiteten Splits zu Originalsplits anhand der split_ids
379
  split_to_original_mapping = {p_split.metadata["split_id"]: o_split for p_split, o_split in zip(preprocessed_splits, original_splits)}
380
 
381
+ # Sicherstellen, dass das Mapping nicht leer ist
382
+ assert split_to_original_mapping, "Das Mapping von Splits wurde nicht korrekt erstellt"
 
 
 
383
 
384
  return preprocessed_splits, split_to_original_mapping
385