Spaces:

obss
/

question-answering-demo

Runtime error

App Files Files Community

secilozksen commited on Dec 30, 2022

Commit

02ecb0f

1 Parent(s): 98b83d0

Upload 4 files

Browse files

demo with new dataset commit

Files changed (4) hide show

basecamp-dpr-context-embeddings.pkl +3 -0
basecamp.csv +0 -0
demo_dpr.py +25 -41
st-context-embeddings.pkl +3 -0

basecamp-dpr-context-embeddings.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18843457511ccc9cd7e998dafac0339d60dcc9984a69fcf884f9e96d2fd11d15
+size 68535357

basecamp.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

demo_dpr.py CHANGED Viewed

@@ -16,7 +16,7 @@ import tokenizers
 st.set_page_config(layout="wide")
 DATAFRAME_FILE_ORIGINAL = 'policyQA_original.csv'
-DATAFRAME_FILE_BSBS = 'policyQA_bsbs_sentence.csv'
 selectbox_selections = {
     'Retrieve - Rerank (with fine-tuned cross-encoder)': 1,
@@ -68,22 +68,21 @@ def load_paragraphs(path):
 @st.cache(show_spinner=False)
 def load_dataframes():
-    data_original = pd.read_csv(DATAFRAME_FILE_ORIGINAL, index_col=0, sep='|')
     data_bsbs = pd.read_csv(DATAFRAME_FILE_BSBS, index_col=0, sep='|')
-    data_original = data_original.sample(frac=1).reset_index(drop=True)
     data_bsbs = data_bsbs.sample(frac=1).reset_index(drop=True)
-    return data_original, data_bsbs
 def dot_product(question_output, context_output):
-    mat1 = torch.unsqueeze(question_output, dim=1)
-    mat2 = torch.unsqueeze(context_output, dim=2)
-    result = torch.bmm(mat1, mat2)
-    result = torch.squeeze(result, dim=1)
-    result = torch.squeeze(result, dim=1)
     return result
 def retrieve_rerank_DPR(question):
-    hits = retrieve_with_dpr_embeddings(question)
     return rerank_with_DPR(hits, question)
 def DPR_reranking(question, selected_contexes, selected_embeddings):
@@ -124,7 +123,7 @@ def custom_dpr_pipeline(question):
     results_list = []
     for i,context_embedding in enumerate(dpr_context_embeddings):
         score = dot_product(question_embedding, context_embedding)
-        results_list.append(score.detach().cpu().numpy()[0])
     hits = sorted(range(len(results_list)), key=lambda i: results_list[i], reverse=True)
     top_5_contexes = []
@@ -134,10 +133,10 @@ def custom_dpr_pipeline(question):
         top_5_scores.append(results_list[j])
     return top_5_contexes, top_5_scores
-def retrieve(question, corpus_embeddings):
     # Semantic Search (Retrieve)
     question_embedding = bi_encoder.encode(question, convert_to_tensor=True)
-    hits = util.semantic_search(question_embedding, corpus_embeddings, top_k=100)
     if len(hits) == 0:
         return []
     hits = hits[0]
@@ -156,41 +155,22 @@ def retrieve_with_dpr_embeddings(question):
     if len(hits) == 0:
         return []
     hits = hits[0]
-    return hits
-def rerank_with_DPR(hits, question):
     # Rerank - score all retrieved passages with cross-encoder
     selected_contexes = [dpr_contexes[hit['corpus_id']] for hit in hits]
     selected_embeddings = [dpr_context_embeddings[hit['corpus_id']] for hit in hits]
-    top_5_scores, top_5_contexes = DPR_reranking(question, selected_contexes, selected_embeddings)
     return top_5_contexes, top_5_scores
-def DPR_reranking(question, selected_contexes, selected_embeddings):
-    scores = []
-    tokenized_question = question_tokenizer(question, padding=True, truncation=True, return_tensors="pt",
-                                            add_special_tokens=True)
-    question_output = dpr_trained.model.question_model(**tokenized_question)
-    question_output = question_output['pooler_output']
-    for context_embedding in selected_embeddings:
-        score = dot_product(question_output, context_embedding)
-        scores.append(score.detach().cpu().numpy()[0])
-    scores_index = sorted(range(len(scores)), key=lambda x: scores[x], reverse=True)
-    contexes_list = []
-    scores_final = []
-    for i, idx in enumerate(scores_index[:5]):
-        scores_final.append(scores[idx])
-        contexes_list.append(selected_contexes[idx])
-    return scores_final, contexes_list
 def retrieve_rerank_with_trained_cross_encoder(question):
-    hits = retrieve(question, context_embeddings)
     cross_inp = [(question, contexes[hit['corpus_id']]) for hit in hits]
     cross_scores = trained_cross_encoder.predict(cross_inp)
     # Sort results by the cross-encoder scores
     for idx in range(len(cross_scores)):
-        hits[idx]['cross-score'] = cross_scores[idx][0]
     # Output of top-5 hits from re-ranker
     hits = sorted(hits, key=lambda x: x['cross-score'], reverse=True)
@@ -229,7 +209,7 @@ def img_to_bytes(img_path):
     return encoded
 def qa_main_widgetsv2():
-    st.title("Semantic Search Demo")
     st.markdown("""---""")
     option = st.selectbox("Select a search method:", list(selectbox_selections.keys()))
     header_html = "<center> <img src='data:image/png;base64,{}' class='img-fluid' width='60%', height='40%'> </center>".format(
@@ -289,9 +269,13 @@ def load_models(dpr_model_path, auth_token, cross_encoder_model_path):
     question_tokenizer = DPRQuestionEncoderTokenizer.from_pretrained('facebook/dpr-question_encoder-single-nq-base')
     return dpr_trained, bi_encoder, cross_encoder, trained_cross_encoder, question_tokenizer
-context_embeddings, contexes = load_paragraphs('context-embeddings.pkl')
-dpr_context_embeddings, dpr_contexes = load_paragraphs('custom-dpr-context-embeddings.pkl')
-dataframe_original, dataframe_bsbs = load_dataframes()
 dpr_trained, bi_encoder, cross_encoder, trained_cross_encoder, question_tokenizer = copy.deepcopy(load_models(st.secrets["DPR_MODEL_PATH"], st.secrets["AUTH_TOKEN"], st.secrets["CROSS_ENCODER_MODEL_PATH"]))
 qa_main_widgetsv2()

 st.set_page_config(layout="wide")
 DATAFRAME_FILE_ORIGINAL = 'policyQA_original.csv'
+DATAFRAME_FILE_BSBS = 'basecamp.csv'
 selectbox_selections = {
     'Retrieve - Rerank (with fine-tuned cross-encoder)': 1,
 @st.cache(show_spinner=False)
 def load_dataframes():
+ #   data_original = pd.read_csv(DATAFRAME_FILE_ORIGINAL, index_col=0, sep='|')
     data_bsbs = pd.read_csv(DATAFRAME_FILE_BSBS, index_col=0, sep='|')
+    data_bsbs.drop('context_id', axis=1, inplace=True)
+#    data_original = data_original.sample(frac=1).reset_index(drop=True)
     data_bsbs = data_bsbs.sample(frac=1).reset_index(drop=True)
+    return data_bsbs
 def dot_product(question_output, context_output):
+    mat1 = torch.squeeze(question_output, 0)
+    mat2 = torch.squeeze(context_output, 0)
+    result = torch.dot(mat1, mat2)
     return result
 def retrieve_rerank_DPR(question):
+    hits = retrieve(question)
     return rerank_with_DPR(hits, question)
 def DPR_reranking(question, selected_contexes, selected_embeddings):
     results_list = []
     for i,context_embedding in enumerate(dpr_context_embeddings):
         score = dot_product(question_embedding, context_embedding)
+        results_list.append(score.detach().cpu())
     hits = sorted(range(len(results_list)), key=lambda i: results_list[i], reverse=True)
     top_5_contexes = []
         top_5_scores.append(results_list[j])
     return top_5_contexes, top_5_scores
+def retrieve(question):
     # Semantic Search (Retrieve)
     question_embedding = bi_encoder.encode(question, convert_to_tensor=True)
+    hits = util.semantic_search(question_embedding, context_embeddings, top_k=100)
     if len(hits) == 0:
         return []
     hits = hits[0]
     if len(hits) == 0:
         return []
     hits = hits[0]
+    return hits, question_embedding
+def rerank_with_DPR(hits, question_embedding):
     # Rerank - score all retrieved passages with cross-encoder
     selected_contexes = [dpr_contexes[hit['corpus_id']] for hit in hits]
     selected_embeddings = [dpr_context_embeddings[hit['corpus_id']] for hit in hits]
+    top_5_scores, top_5_contexes = DPR_reranking(question_embedding, selected_contexes, selected_embeddings)
     return top_5_contexes, top_5_scores
 def retrieve_rerank_with_trained_cross_encoder(question):
+    hits = retrieve(question)
     cross_inp = [(question, contexes[hit['corpus_id']]) for hit in hits]
     cross_scores = trained_cross_encoder.predict(cross_inp)
     # Sort results by the cross-encoder scores
     for idx in range(len(cross_scores)):
+        hits[idx]['cross-score'] = cross_scores[idx][1]
     # Output of top-5 hits from re-ranker
     hits = sorted(hits, key=lambda x: x['cross-score'], reverse=True)
     return encoded
 def qa_main_widgetsv2():
+    st.title("Question Answering Demo")
     st.markdown("""---""")
     option = st.selectbox("Select a search method:", list(selectbox_selections.keys()))
     header_html = "<center> <img src='data:image/png;base64,{}' class='img-fluid' width='60%', height='40%'> </center>".format(
     question_tokenizer = DPRQuestionEncoderTokenizer.from_pretrained('facebook/dpr-question_encoder-single-nq-base')
     return dpr_trained, bi_encoder, cross_encoder, trained_cross_encoder, question_tokenizer
+context_embeddings, contexes = load_paragraphs('st-context-embeddings.pkl')
+dpr_context_embeddings, dpr_contexes = load_paragraphs('basecamp-dpr-context-embeddings.pkl')
+dataframe_bsbs = load_dataframes()
 dpr_trained, bi_encoder, cross_encoder, trained_cross_encoder, question_tokenizer = copy.deepcopy(load_models(st.secrets["DPR_MODEL_PATH"], st.secrets["AUTH_TOKEN"], st.secrets["CROSS_ENCODER_MODEL_PATH"]))
 qa_main_widgetsv2()
+#if __name__ == '__main__':
+#    search_pipeline('Life insurance is paid by insurance companies that pay for what?', 1)

st-context-embeddings.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd65fe793062375df1efd50218e9a7c35253fe06a24e5527de7855671a4f958c
+size 468299