Spaces:

TomData
/

PoliticsToYou

Runtime error

App Files Files Community

TomData commited on May 19, 2024

Commit

e681b03

1 Parent(s): 0d7e513

update keyword search

Browse files

Files changed (2) hide show

Home.py +1 -1
src/chatbot.py +9 -6

Home.py CHANGED Viewed

@@ -24,7 +24,7 @@ with gr.Blocks() as App:
                 #Row orientation
                 with gr.Row() as additional_input:
                     n_slider = gr.Slider(label="Number of Results", minimum=1, maximum=100, step=1, value=10)
-                    party_dopdown = gr.Dropdown(choices=['CDU/CSU','SPD','FDP','Grüne','not found','DIE LINKE.','PDS','KPD'], label='Party')
             search_btn = gr.Button('Search')

                 #Row orientation
                 with gr.Row() as additional_input:
                     n_slider = gr.Slider(label="Number of Results", minimum=1, maximum=100, step=1, value=10)
+                    party_dopdown = gr.Dropdown(value='All', choices=['All','CDU/CSU','SPD','FDP','Grüne','not found','DIE LINKE.','PDS','KPD'], label='Party') #change to all possible options
             search_btn = gr.Button('Search')

src/chatbot.py CHANGED Viewed

@@ -61,15 +61,18 @@ def chatbot(message, history, db=db, llm=llm, prompt=prompt2):
     return response
 # Retrieve speech contents based on keywords
-def keyword_search(query,n=10, db=db, embeddings=embeddings, method='ss', party_filter = ''):
     query_embedding = embeddings.embed_query(query)
     if method == 'mmr':
         df_res = pd.DataFrame(columns=['Speech Content','Date', 'Party', 'Relevance']) # Add Date/Party/Politician
-        results =  db.max_marginal_relevance_search_with_score_by_vector(query_embedding, k = n, fetch_k = n + 10) #Add filter
         for doc in results:
             speech_content = doc[0].page_content
             speech_date = doc[0].metadata["date"]
-            party = doc[0].metadata["party"]
             score = round(doc[1], ndigits=2) # Relevance based on relevance search
             df_res = pd.concat([df_res, pd.DataFrame({'Speech Content': [speech_content],
                                                             'Date': [speech_date],
@@ -78,12 +81,12 @@ def keyword_search(query,n=10, db=db, embeddings=embeddings, method='ss', party_
         df_res.sort_values('Relevance', inplace=True, ascending=True)
     else:
         df_res = pd.DataFrame(columns=['Speech Content','Date', 'Party']) # Add Date/Party/Politician #Add filter
-        results = db.similarity_search_by_vector(query_embedding, k = n, filter={"party": party_filter})
         for doc in results:
             party = doc.metadata["party"]
             #Filter by party input
-            #if party != party_filter or party_filter == '':
-            #    continue
             speech_content = doc.page_content
             speech_date = doc.metadata["date"]

     return response
 # Retrieve speech contents based on keywords
+def keyword_search(query,n=10, db=db, embeddings=embeddings, method='ss', party_filter = 'All'):
     query_embedding = embeddings.embed_query(query)
     if method == 'mmr':
         df_res = pd.DataFrame(columns=['Speech Content','Date', 'Party', 'Relevance']) # Add Date/Party/Politician
+        results =  db.max_marginal_relevance_search_with_score_by_vector(query_embedding, k = n)
         for doc in results:
+            party = doc[0].metadata["party"]
+             #Filter by party input
+            if party != party_filter and party_filter != 'All':
+                  continue
             speech_content = doc[0].page_content
             speech_date = doc[0].metadata["date"]
             score = round(doc[1], ndigits=2) # Relevance based on relevance search
             df_res = pd.concat([df_res, pd.DataFrame({'Speech Content': [speech_content],
                                                             'Date': [speech_date],
         df_res.sort_values('Relevance', inplace=True, ascending=True)
     else:
         df_res = pd.DataFrame(columns=['Speech Content','Date', 'Party']) # Add Date/Party/Politician #Add filter
+        results = db.similarity_search_by_vector(query_embedding, k = n)
         for doc in results:
             party = doc.metadata["party"]
             #Filter by party input
+            if party != party_filter and party_filter != 'All':
+                  continue
             speech_content = doc.page_content
             speech_date = doc.metadata["date"]