SucheRAG

Running

App Files Files Community

alexkueck commited on Jul 4

Commit

3685ab4

•

1 Parent(s): b680eb6

Update utils.py

Browse files

Files changed (1) hide show

utils.py +0 -75

utils.py CHANGED Viewed

@@ -267,34 +267,6 @@ def load_word_with_metadata(file_path):
     return documents
-"""
-# Custom loader functions
-def load_pdf_with_metadata(file_path):
-    document = fitz.open(file_path)
-    documents = []
-    for page_num in range(len(document)):
-        page = document.load_page(page_num)
-        content = page.get_text("text")
-        metadata = {
-            "title": document.metadata.get("title", "Unbekannt"),
-            "page": page_num + 1,
-            "path": file_path
-        }
-        documents.append({"page_content": content, "metadata": metadata})
-    return documents
-def load_word_with_metadata(file_path):
-    document = docx.Document(file_path)
-    metadata = {
-        "title": "Dokument",
-        "path": file_path
-    }
-    contents = []
-    for para in document.paragraphs:
-        content = para.text
-        contents.append({"page_content": content, "metadata": {**metadata, "page": 1}})
-    return contents
-"""
 ################################################
@@ -362,34 +334,7 @@ def document_retrieval_chroma(llm, prompt):
     return db
-############################################
-# rag_chain Alternative für RAg mit Bild-Upload, da hier das llm so nicht genutzt werden kann und der prompt mit den RAG Erweiterungen anders übergeben wird
-#langchain nutzen, um prompt an llm zu leiten, aber vorher in der VektorDB suchen, um passende splits zum Prompt hinzuzufügen
-#prompt mit RAG!!!
-"""
-def rag_chainback(prompt, db, k=3):
-    rag_template = "Nutze ausschließlich die folgenden Kontext Teile am Ende, um die Frage zu beantworten . " + template + "Frage: " + prompt + "Kontext Teile: "
-    retrieved_chunks  = db.similarity_search(prompt, k)
-    # Erstelle ein Dictionary für die Chunks
-    chunks_dict = []
-    for i, chunk in enumerate(retrieved_chunks):
-        chunk_dict = {
-            "chunk_index": i + 1,
-            "page_content": chunk.page_content,  # assuming chunk has page_content attribute
-            "metadata": chunk.metadata  # assuming chunk has metadata attribute
-        }
-        chunks_dict.append(chunk_dict)
-    # Erstelle das neue Prompt
-    neu_prompt = rag_template
-    for chunk in chunks_dict:
-        neu_prompt += f"{chunk['chunk_index']}. {chunk['page_content']}\n"
-    print("dict.............................."+ json.dumps(chunks_dict, indent=4, ensure_ascii=False))
-    return neu_prompt, chunks_dict  # returning both the new prompt and the dictionary
-"""
 ###############################################
 #Langchain anlegen für RAG Chaining
@@ -414,10 +359,7 @@ def rag_chain(llm, prompt,  retriever):
     relevant_docs = retriever.get_relevant_documents(prompt)
     extracted_docs = extract_document_info(relevant_docs)
-    print("releant docs1......................")
     if (len(extracted_docs)>0):
-        print("releant docs2......................")
         print(extracted_docs)
         #llm_chain = LLMChain(llm = llm, prompt = RAG_CHAIN_PROMPT)
         #result = llm_chain.run({"context": relevant_docs, "question": prompt})
@@ -476,23 +418,6 @@ def extract_document_info(documents):
         }
         extracted_info.append(info)
     return extracted_info
-"""
-# Funktion zum Erstellen der Liste von Dictionaries
-def extract_document_info(documents):
-    extracted_info = []
-    for doc in documents:
-        info = {
-            'content' : doc["content"],
-            'metadaten' : doc["metadata"],
-            'titel' : metadaten.get("title", "Keine Überschrift"),
-            'seite' : metadaten.get("page", "Unbekannte Seite"),
-            'pfad' : metadaten.get("path", "Kein Pfad verfügbar")
-        }
-        extracted_info.append(info)
-    return extracted_info
-"""

     return documents
 ################################################
     return db
 ###############################################
 #Langchain anlegen für RAG Chaining
     relevant_docs = retriever.get_relevant_documents(prompt)
     extracted_docs = extract_document_info(relevant_docs)
     if (len(extracted_docs)>0):
         print(extracted_docs)
         #llm_chain = LLMChain(llm = llm, prompt = RAG_CHAIN_PROMPT)
         #result = llm_chain.run({"context": relevant_docs, "question": prompt})
         }
         extracted_info.append(info)
     return extracted_info