Spaces:

powerpuf-bot
/

web-qa

Sleeping

App Files Files Community

Chananchida commited on Feb 25, 2024

Commit

b2b7ea1

verified ·

1 Parent(s): 14ce495

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -20

app.py CHANGED Viewed

@@ -15,7 +15,7 @@ from unstructured.partition.html import partition_html
 DEFAULT_MODEL = 'wangchanberta'
 DEFAULT_SENTENCE_EMBEDDING_MODEL = 'intfloat/multilingual-e5-base'
-EMBEDDINGS_PATH = 'data/embeddings.pkl'
 MODEL_DICT = {
     'wangchanberta': 'Chananchida/wangchanberta-xet_ref-params',
     'wangchanberta-hyp': 'Chananchida/wangchanberta-xet_hyp-params',
@@ -59,14 +59,6 @@ def prepare_sentences_vector(encoded_list):
     encoded_list = normalize(encoded_list)
     return encoded_list
-def load_embeddings(file_path=EMBEDDINGS_PATH):
-    with open(file_path, "rb") as fIn:
-        stored_data = pickle.load(fIn)
-        stored_sentences = stored_data['sentences']
-        stored_embeddings = stored_data['embeddings']
-    print('Load (questions) embeddings done')
-    return stored_embeddings
 def faiss_search(index, question_vector, k=1):
     distances, indices = index.search(question_vector, k)
     return distances,indices
@@ -81,25 +73,23 @@ def model_pipeline(model, tokenizer, question, context):
     Answer = tokenizer.decode(predict_answer_tokens)
     return Answer.replace('<unk>','@')
-def predict_test(embedding_model, context, question, index):  # sent_tokenize pythainlp
     t = time.time()
     question = question.strip()
     question_vector = get_embeddings(embedding_model, question)
     question_vector = prepare_sentences_vector([question_vector])
-    distances, indices = faiss_search(index, question_vector, 3)  # Retrieve top 3 indices
     most_similar_contexts = ''
-    for i in range(3):  # Loop through top 3 indices
         most_sim_context = context[indices[0][i]].strip()
-        # most_similar_contexts.append(most_sim_context)
-        most_similar_contexts += 'Top '+str(i+1)+': '+most_sim_context + "\n\n"
     print(most_similar_contexts)
     return most_similar_contexts
 if __name__ == "__main__":
     url = "https://www.dataxet.co/media-landscape/2024-th"
     elements = partition_html(url=url)
     context = [str(element) for element in elements  if len(str(element)) >60]
@@ -108,7 +98,7 @@ if __name__ == "__main__":
     index = set_index(prepare_sentences_vector(get_embeddings(embedding_model, context)))
     def chat_interface(question, history):
-        response = predict_test(embedding_model, context, question, index)
         return response
     examples=['ภูมิทัศน์สื่อไทยในปี 2567 มีแนวโน้มว่า ',
@@ -116,8 +106,7 @@ if __name__ == "__main__":
                'ติ๊กต๊อก คือ',
                'รายงานจาก Reuters Institute'
               ]
     interface = gr.ChatInterface(fn=chat_interface,
                                     examples=examples)

 DEFAULT_MODEL = 'wangchanberta'
 DEFAULT_SENTENCE_EMBEDDING_MODEL = 'intfloat/multilingual-e5-base'
 MODEL_DICT = {
     'wangchanberta': 'Chananchida/wangchanberta-xet_ref-params',
     'wangchanberta-hyp': 'Chananchida/wangchanberta-xet_hyp-params',
     encoded_list = normalize(encoded_list)
     return encoded_list
 def faiss_search(index, question_vector, k=1):
     distances, indices = index.search(question_vector, k)
     return distances,indices
     Answer = tokenizer.decode(predict_answer_tokens)
     return Answer.replace('<unk>','@')
+def predict_test(embedding_model, context, question, index, url):
     t = time.time()
     question = question.strip()
     question_vector = get_embeddings(embedding_model, question)
     question_vector = prepare_sentences_vector([question_vector])
+    distances, indices = faiss_search(index, question_vector, 3)
     most_similar_contexts = ''
+    for i in range(3):
         most_sim_context = context[indices[0][i]].strip()
+        answer_url = f"{url}#:~:text={most_sim_context}"
+        # encoded_url = urllib.parse.quote(answer_url)
+        most_similar_contexts += f'<a href="{answer_url}">[ {i+1} ]: {most_sim_context}</a>\n\n'
     print(most_similar_contexts)
     return most_similar_contexts
 if __name__ == "__main__":
     url = "https://www.dataxet.co/media-landscape/2024-th"
     elements = partition_html(url=url)
     context = [str(element) for element in elements  if len(str(element)) >60]
     index = set_index(prepare_sentences_vector(get_embeddings(embedding_model, context)))
     def chat_interface(question, history):
+        response = predict_test(embedding_model, context, question, index, url)
         return response
     examples=['ภูมิทัศน์สื่อไทยในปี 2567 มีแนวโน้มว่า ',
                'ติ๊กต๊อก คือ',
                'รายงานจาก Reuters Institute'
               ]
     interface = gr.ChatInterface(fn=chat_interface,
                                     examples=examples)