Spaces:

alexkueck
/

kkg_suche

Sleeping

App Files Files Community

alexkueck commited on Jun 23, 2024

Commit

7fc9240

verified ·

1 Parent(s): 0ceaa7f

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -1

app.py CHANGED Viewed

@@ -142,8 +142,45 @@ def search_documents(query):
     # Sortieren nach Relevanz
     sorted_indices = similarities.argsort()[::-1]
     results = [documents[i]['file'] for i in sorted_indices if similarities[i] > 0]
-    return results if results else ["No relevant documents found"]
 #######################################

     # Sortieren nach Relevanz
     sorted_indices = similarities.argsort()[::-1]
     results = [documents[i]['file'] for i in sorted_indices if similarities[i] > 0]
+    results = []
+    relevant_text = ""
+    relevant_docs = {}
+    num_pages_per_doc = [len(doc['pages']) for doc in documents]
+    cumulative_pages = [sum(num_pages_per_doc[:i+1]) for i in range(len(num_pages_per_doc))]
+    for i in related_docs_indices:
+        if cosine_similarities[i] > 0:
+            doc_index = next(idx for idx, cumulative in enumerate(cumulative_pages) if i < cumulative)
+            page_index = i if doc_index == 0 else i - cumulative_pages[doc_index-1]
+            doc = documents[doc_index]
+            page = doc['pages'][page_index]
+            page_content = page['content']
+            header_content = page.get('header', '')
+            # Überprüfen, ob der Suchtext in der Überschrift oder im Seiteninhalt enthalten ist
+            index_in_content = page_content.lower().find(query.lower())
+            index_in_header = header_content.lower().find(query.lower())
+            if index_in_content != -1 or index_in_header != -1:
+                # Erstellen Sie einen Snippet für die Suchergebnisse
+                start = max(0, index_in_content - 400) if index_in_content != -1 else 0
+                end = min(len(page_content), index_in_content + 400) if index_in_content != -1 else len(page_content)
+                snippet = f"Aus <span class='doc-name'>{doc['file']}</span> (Seite <span class='page-number'>{page_index + 1}</span>):<br>"
+                # Fügen Sie die Überschrift hinzu, falls vorhanden
+                if header_content:
+                    snippet += f"<b>Überschrift:</b> {header_content}<br>"
+                snippet += f"...{page_content[start:end]}...<br><br>"
+                relevant_text += snippet
+                if doc['file'] not in relevant_docs:
+                    relevant_docs[doc['file']] = []
+                relevant_docs[doc['file']].append(snippet)
+    results = list(relevant_docs.keys())
+    return results, relevant_text
 #######################################