Spaces:

ChenyuRabbitLove
/

junyi_bot_external

Runtime error

ChenyuRabbitLove commited on Sep 14, 2023

Commit

69bac50

•

1 Parent(s): a779e10

feat:add transcript db and api

Files changed (2) hide show

app.py CHANGED Viewed

@@ -37,9 +37,7 @@ with gr.Blocks() as demo:
         )
         upload_to_db = gr.CheckboxGroup(
             ["Upload to Database"],
-            label="是否上傳至資料庫",
-            info="將資料上傳至資料庫時，資料庫會自動建立索引，下次使用時可以直接檢索，預設為僅作這次使用",
-            scale=1,
         )
     with gr.Row():
@@ -62,6 +60,10 @@ with gr.Blocks() as demo:
         video_text_input = gr.Textbox("", visible=False)
         video_text_output = gr.Textbox("", visible=False)
     # end of gradio interface
     # start of workflow controller
@@ -90,6 +92,7 @@ with gr.Blocks() as demo:
         **bot_args
     ).then(lambda: gr.update(interactive=True), None, [user_input], queue=False)
     # defining workflow of clear state
     clear_state_args = dict(
         fn=clear_state,
@@ -126,12 +129,9 @@ with gr.Blocks() as demo:
         **change_md_args
     )
-    video_text_input.submit(
-        video_bot,
-        [test_video_chabot, video_text_input],
-        video_text_output,
-        api_name="video_bot",
-    )
 if __name__ == "__main__":
     demo.launch()

         )
         upload_to_db = gr.CheckboxGroup(
             ["Upload to Database"],
+            label="是否上傳至資料庫", info="將資料上傳至資料庫時，資料庫會自動建立索引，下次使用時可以直接檢索，預設為僅作這次使用", scale=1
         )
     with gr.Row():
         video_text_input = gr.Textbox("", visible=False)
         video_text_output = gr.Textbox("", visible=False)
+        transcript_id = gr.Textbox("", visible=False)
+        user_question = gr.Textbox("", visible=False)
+        content_output = gr.Textbox("", visible=False)
     # end of gradio interface
     # start of workflow controller
         **bot_args
     ).then(lambda: gr.update(interactive=True), None, [user_input], queue=False)
     # defining workflow of clear state
     clear_state_args = dict(
         fn=clear_state,
         **change_md_args
     )
+    video_text_input.submit(video_bot, [test_video_chabot, video_text_input], video_text_output, api_name="video_bot")
+    transcript_id.submit(search_transcript_content, [transcript_id, user_question], content_output, api_name="search_transcript_content")
 if __name__ == "__main__":
     demo.launch()

utils/utils.py CHANGED Viewed

@@ -1,3 +1,13 @@
 def clear_state(chatbot, *args):
     return chatbot.clear_state(*args)
@@ -28,3 +38,28 @@ def bot(chatbot, *args):
 def video_bot(video_chatbot, *args):
     return video_chatbot.answer_question(*args)

+import os
+import openai
+import pandas as pd
+import numpy as np
+from openai.embeddings_utils import distances_from_embeddings
+OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
+openai.api_key = OPENAI_API_KEY
 def clear_state(chatbot, *args):
     return chatbot.clear_state(*args)
 def video_bot(video_chatbot, *args):
     return video_chatbot.answer_question(*args)
+def search_transcript_content(transcript_id, user_question):
+    user_q_emb = openai.Embedding.create(input=user_question, engine="text-embedding-ada-002")["data"][0]["embedding"]
+    transcript_db = pd.read_csv("transcript.csv")
+    transcript_db = transcript_db[transcript_db["uid"] == transcript_id]
+    transcript_db["embedding"] = (
+        transcript_db["embedding"].apply(eval).apply(np.array)
+    )
+    transcript_db["distance"] = distances_from_embeddings(
+        user_q_emb,
+        transcript_db["embedding"].values,
+        distance_metric="cosine",
+        )
+    transcript_db = transcript_db.sort_values(
+        by="distance", ascending=True
+    )
+    if transcript_db["distance"].values[0] > 0.2:
+        return "Sorry, I can't find the content."
+    return transcript_db.iloc[0]["text"]