Spaces:

hotchpotch
/

wikipedia-japanese-rag-qa

Sleeping

App Files Files Community

shinichi-a commited on Dec 29, 2023

Commit

fa9309e

•

1 Parent(s): b75c3e3

Add "Search Only" to OpenAI model options and make OpenAI API key input optional

Browse files

In this pull request, the following changes have been made:

1. Added "Search Only" to the options for the OpenAI model. This allows users to perform only a search without using the OpenAI model.

2. Made the input of the OpenAI API key optional. This allows the search to be executed even if the OpenAI API key is not entered.

These changes allow users to perform only a search without using the OpenAI model and to execute a search even if the OpenAI API key is not entered, improving user convenience.

Please review and let me know your thoughts.

Files changed (1) hide show

app.py +22 -36

app.py CHANGED Viewed

@@ -1,23 +1,15 @@
-"""
-streamlit run app.py --server.address 0.0.0.0
-"""
 from __future__ import annotations
-import streamlit as st
 import os
-import faiss
-from sentence_transformers import SentenceTransformer
 import torch
-from openai import OpenAI
 import streamlit as st
-import pandas as pd
-import os
 from time import time
 from datasets.download import DownloadManager
-from datasets import load_dataset  # type: ignore
 WIKIPEDIA_JA_DS = "singletongue/wikipedia-utils"
 WIKIPEDIA_JS_DS_NAME = "passages-c400-jawiki-20230403"
@@ -36,6 +28,7 @@ EMB_MODEL_NAMES = list(EMB_MODEL_PQ.keys())
 OPENAI_MODEL_NAMES = [
     "gpt-3.5-turbo-1106",
     "gpt-4-1106-preview",
 ]
 E5_QUERY_TYPES = [
@@ -60,7 +53,6 @@ Responses must be given in Japanese.
 {question}
 """.strip()
 if os.getenv("SPACE_ID"):
     USE_HF_SPACE = True
     os.environ["HF_HOME"] = "/data/.huggingface"
@@ -68,9 +60,7 @@ if os.getenv("SPACE_ID"):
 else:
     USE_HF_SPACE = False
-# for tokenizer
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
 OPENAI_API_KEY = os.environ.get("OPENAI_API_KEY")
@@ -81,6 +71,7 @@ def get_model(name: str, max_seq_length=512):
         device = "cuda"
     elif torch.backends.mps.is_available():
         device = "mps"
     model = SentenceTransformer(name, device=device)
     model.max_seq_length = max_seq_length
     return model
@@ -93,9 +84,7 @@ def get_wikija_ds(name: str = WIKIPEDIA_JS_DS_NAME):
 @st.cache_resource
-def get_faiss_index(
-    index_name: str, ja_emb_ds: str = WIKIPEDIA_JA_EMB_DS, name=WIKIPEDIA_JS_DS_NAME
-):
     target_path = f"faiss_indexes/{name}/{index_name}"
     dm = DownloadManager()
     index_local_path = dm.download(
@@ -110,9 +99,7 @@ def text_to_emb(model, text: str, prefix: str):
     return model.encode([prefix + text], normalize_embeddings=True)
-def search(
-    faiss_index, emb_model, ds, question: str, search_text_prefix: str, top_k: int
-):
     start_time = time()
     emb = text_to_emb(emb_model, question, search_text_prefix)
     emb_exec_time = time() - start_time
@@ -121,7 +108,7 @@ def search(
     scores = scores[0]
     indexes = indexes[0]
     results = []
-    for idx, score in zip(indexes, scores):  # type: ignore
         idx = int(idx)
         passage = ds[idx]
         results.append((score, passage))
@@ -133,7 +120,6 @@ def to_contexts(passages):
     for passage in passages:
         title = passage["title"]
         text = passage["text"]
-        # section = passage["section"]
         contexts += f"- {title}: {text}\n"
     return contexts
@@ -211,15 +197,13 @@ def app():
         key="question",
         value="楽曲『約束はいらない』でデビューした、声優は誰?",
     )
-    if not OPENAI_API_KEY:
-        st.text_input(
-            "OpenAI API Key",
-            key="openai_api_key",
-            type="password",
-            placeholder="※ OpenAI API Key 未入力時は回答を生成せずに、検索のみ実行します",
-        )
-    else:
-        st.session_state.openai_api_key = OPENAI_API_KEY
     with st.expander("オプション"):
         option_cols_main = st.columns(2)
@@ -229,6 +213,8 @@ def app():
             st.selectbox(
                 "OpenAI Model", OPENAI_MODEL_NAMES, index=0, key="openai_model_name"
             )
         emb_model_name = st.session_state.emb_model_name
         option_cols_sub = st.columns(2)
         with option_cols_sub[0]:
@@ -300,10 +286,10 @@ def app():
         st.dataframe(df, hide_index=True)
         openai_api_key = st.session_state.openai_api_key
-        if openai_api_key:
             openai_api_key = openai_api_key.strip()
             answer_header.subheader("Answer: ")
-            openai_model_name = st.session_state.openai_model_name
             temperature = st.session_state.temperature
             qa_prompt = st.session_state.qa_prompt
             max_tokens = st.session_state.max_tokens
@@ -320,4 +306,4 @@ def app():
 if __name__ == "__main__":
-    app()

 from __future__ import annotations
 import os
+import pandas as pd
 import torch
+import faiss
 import streamlit as st
 from time import time
+from openai import OpenAI
+from sentence_transformers import SentenceTransformer
+from datasets import load_dataset
 from datasets.download import DownloadManager
 WIKIPEDIA_JA_DS = "singletongue/wikipedia-utils"
 WIKIPEDIA_JS_DS_NAME = "passages-c400-jawiki-20230403"
 OPENAI_MODEL_NAMES = [
     "gpt-3.5-turbo-1106",
     "gpt-4-1106-preview",
+    "Search Only",
 ]
 E5_QUERY_TYPES = [
 {question}
 """.strip()
 if os.getenv("SPACE_ID"):
     USE_HF_SPACE = True
     os.environ["HF_HOME"] = "/data/.huggingface"
 else:
     USE_HF_SPACE = False
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
 OPENAI_API_KEY = os.environ.get("OPENAI_API_KEY")
         device = "cuda"
     elif torch.backends.mps.is_available():
         device = "mps"
     model = SentenceTransformer(name, device=device)
     model.max_seq_length = max_seq_length
     return model
 @st.cache_resource
+def get_faiss_index(index_name: str, ja_emb_ds: str = WIKIPEDIA_JA_EMB_DS, name=WIKIPEDIA_JS_DS_NAME):
     target_path = f"faiss_indexes/{name}/{index_name}"
     dm = DownloadManager()
     index_local_path = dm.download(
     return model.encode([prefix + text], normalize_embeddings=True)
+def search(faiss_index, emb_model, ds, question: str, search_text_prefix: str, top_k: int):
     start_time = time()
     emb = text_to_emb(emb_model, question, search_text_prefix)
     emb_exec_time = time() - start_time
     scores = scores[0]
     indexes = indexes[0]
     results = []
+    for idx, score in zip(indexes, scores):
         idx = int(idx)
         passage = ds[idx]
         results.append((score, passage))
     for passage in passages:
         title = passage["title"]
         text = passage["text"]
         contexts += f"- {title}: {text}\n"
     return contexts
         key="question",
         value="楽曲『約束はいらない』でデビューした、声優は誰?",
     )
+    st.text_input(
+        "OpenAI API Key",
+        key="openai_api_key",
+        type="password",
+        value=OPENAI_API_KEY if OPENAI_API_KEY else "",
+        placeholder="※ OpenAI API Key 未入力時は回答を生成せずに、検索のみ実行します",
+    )
     with st.expander("オプション"):
         option_cols_main = st.columns(2)
             st.selectbox(
                 "OpenAI Model", OPENAI_MODEL_NAMES, index=0, key="openai_model_name"
             )
+        if "emb_model_name" not in st.session_state:
+            st.session_state.emb_model_name = EMB_MODEL_NAMES[0]  # replace with the actual default value you want to use
         emb_model_name = st.session_state.emb_model_name
         option_cols_sub = st.columns(2)
         with option_cols_sub[0]:
         st.dataframe(df, hide_index=True)
         openai_api_key = st.session_state.openai_api_key
+        openai_model_name = st.session_state.openai_model_name
+        if openai_api_key and openai_model_name != "Search Only":
             openai_api_key = openai_api_key.strip()
             answer_header.subheader("Answer: ")
             temperature = st.session_state.temperature
             qa_prompt = st.session_state.qa_prompt
             max_tokens = st.session_state.max_tokens
 if __name__ == "__main__":
+    app()