Spaces:

GIZ
/

audit_assistant

Runtime error

App Files Files Community

ppsingh commited on Aug 14

Commit

1befddb

•

1 Parent(s): f42601b

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -13

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import gradio as gr
 import pandas as pd
 import numpy as np
 import os
 import time
@@ -22,6 +23,9 @@ from langchain_core.callbacks.streaming_stdout import StreamingStdOutCallbackHan
 from langchain_community.llms import HuggingFaceEndpoint
 from auditqa.process_chunks import load_chunks, getconfig
 from langchain_community.chat_models.huggingface import ChatHuggingFace
 from qdrant_client.http import models as rest
 #from qdrant_client import QdrantClient
 from dotenv import load_dotenv
@@ -64,7 +68,7 @@ def save_logs(logs) -> None:
         with JSON_DATASET_PATH.open("a") as f:
             json.dump(logs, f)
             f.write("\n")
-    print("logging done")
 def make_html_source(source,i):
     """
@@ -119,13 +123,13 @@ async def chat(query,history,sources,reports,subtype,year):
     """taking a query and a message history, use a pipeline (reformulation, retriever, answering) to yield a tuple of:
     (messages in gradio format, messages in langchain format, source documents)"""
-    print(f">> NEW QUESTION : {query}")
-    print(f"history:{history}")
     #print(f"audience:{audience}")
-    print(f"sources:{sources}")
-    print(f"reports:{reports}")
-    print(f"subtype:{subtype}")
-    print(f"year:{year}")
     docs_html = ""
     output_query = ""
@@ -137,7 +141,7 @@ async def chat(query,history,sources,reports,subtype,year):
     ###-------------------------------------Construct Filter------------------------------------
     if len(reports) == 0:
-        print("defining filter for:",sources,":",subtype,":",year)
         filter=rest.Filter(
                 must=[rest.FieldCondition(
                         key="metadata.source",
@@ -167,11 +171,15 @@ async def chat(query,history,sources,reports,subtype,year):
     for question in question_lst:
         retriever = vectorstore.as_retriever(
           search_type="similarity_score_threshold", search_kwargs={"score_threshold": 0.6, "k": int(model_config.get('retriever','TOP_K')), "filter":filter})
-        context_retrieved = retriever.invoke(question)
-        print(len(context_retrieved))
         for doc in context_retrieved:
-            print(doc.metadata)
         def format_docs(docs):
             return "\n\n".join(doc.page_content for doc in docs)
@@ -261,7 +269,7 @@ async def chat(query,history,sources,reports,subtype,year):
             }
         save_logs(logs)
     except Exception as e:
-        print(e)
 #process_pdf()

 import gradio as gr
 import pandas as pd
+import logging
 import numpy as np
 import os
 import time
 from langchain_community.llms import HuggingFaceEndpoint
 from auditqa.process_chunks import load_chunks, getconfig
 from langchain_community.chat_models.huggingface import ChatHuggingFace
+from langchain.retrievers import ContextualCompressionRetriever
+from langchain.retrievers.document_compressors import CrossEncoderReranker
+from langchain_community.cross_encoders import HuggingFaceCrossEncoder
 from qdrant_client.http import models as rest
 #from qdrant_client import QdrantClient
 from dotenv import load_dotenv
         with JSON_DATASET_PATH.open("a") as f:
             json.dump(logs, f)
             f.write("\n")
+    logging.info("logging done")
 def make_html_source(source,i):
     """
     """taking a query and a message history, use a pipeline (reformulation, retriever, answering) to yield a tuple of:
     (messages in gradio format, messages in langchain format, source documents)"""
+    logging.info(f">> NEW QUESTION : {query}")
+    logging.info(f"history:{history}")
     #print(f"audience:{audience}")
+    logging.info(f"sources:{sources}")
+    logging.info(f"reports:{reports}")
+    logging.info(f"subtype:{subtype}")
+    logging.info(f"year:{year}")
     docs_html = ""
     output_query = ""
     ###-------------------------------------Construct Filter------------------------------------
     if len(reports) == 0:
+        ("defining filter for:{}:{}:{}".format(sources,subtype,year))
         filter=rest.Filter(
                 must=[rest.FieldCondition(
                         key="metadata.source",
     for question in question_lst:
         retriever = vectorstore.as_retriever(
           search_type="similarity_score_threshold", search_kwargs={"score_threshold": 0.6, "k": int(model_config.get('retriever','TOP_K')), "filter":filter})
+        model = HuggingFaceCrossEncoder(model_name="BAAI/bge-reranker-base")
+        compressor = CrossEncoderReranker(model=model, top_n=3)
+        compression_retriever = ContextualCompressionRetriever(
+            base_compressor=compressor, base_retriever=retriever
+        )
+        context_retrieved = compression_retriever.invoke(question)
+        logging.info(len(context_retrieved))
         for doc in context_retrieved:
+            logging.info(doc.metadata)
         def format_docs(docs):
             return "\n\n".join(doc.page_content for doc in docs)
             }
         save_logs(logs)
     except Exception as e:
+        logging.error(e)
 #process_pdf()