Upload 16 files (#4)

Files changed (10) hide show

app.py CHANGED Viewed

@@ -24,6 +24,7 @@ from utils.models import (
     get_flan_t5_model,
     get_mpnet_embedding_model,
     get_sgpt_embedding_model,
     get_spacy_model,
     get_splade_sparse_embedding_model,
     get_t5_model,
@@ -247,7 +248,7 @@ with st.sidebar:
 # Choose encoder model
-encoder_models_choice = ["MPNET", "SGPT", "Hybrid MPNET - SPLADE"]
 with st.sidebar:
     encoder_model = st.selectbox("Select Encoder Model", encoder_models_choice)
@@ -281,6 +282,15 @@ elif encoder_model == "SGPT":
     pinecone_index = pinecone.Index(pinecone_index_name)
     retriever_model = get_sgpt_embedding_model()
 elif encoder_model == "Hybrid MPNET - SPLADE":
     pinecone.init(
         api_key=st.secrets["pinecone_hybrid_splade_mpnet"],

     get_flan_t5_model,
     get_mpnet_embedding_model,
     get_sgpt_embedding_model,
+    get_instructor_embedding_model,
     get_spacy_model,
     get_splade_sparse_embedding_model,
     get_t5_model,
 # Choose encoder model
+encoder_models_choice = ["MPNET", "Instructor", "SGPT", "Hybrid MPNET - SPLADE"]
 with st.sidebar:
     encoder_model = st.selectbox("Select Encoder Model", encoder_models_choice)
     pinecone_index = pinecone.Index(pinecone_index_name)
     retriever_model = get_sgpt_embedding_model()
+elif encoder_model == "Instructor":
+    # Connect to pinecone environment
+    pinecone.init(
+        api_key=st.secrets["pinecone_instructor"], environment="us-west4-gcp-free"
+    )
+    pinecone_index_name = "week13-instructor-xl"
+    pinecone_index = pinecone.Index(pinecone_index_name)
+    retriever_model = get_instructor_embedding_model()
 elif encoder_model == "Hybrid MPNET - SPLADE":
     pinecone.init(
         api_key=st.secrets["pinecone_hybrid_splade_mpnet"],

requirements.txt CHANGED Viewed

@@ -11,3 +11,4 @@ transformers
 streamlit
 streamlit-scrollable-textbox
 openai

 streamlit
 streamlit-scrollable-textbox
 openai
+InstructorEmbedding

utils/__pycache__/__init__.cpython-38.pyc ADDED Viewed

Binary file (181 Bytes). View file

utils/__pycache__/entity_extraction.cpython-38.pyc ADDED Viewed

Binary file (4.04 kB). View file

utils/__pycache__/models.cpython-38.pyc ADDED Viewed

Binary file (4.28 kB). View file

utils/__pycache__/prompts.cpython-38.pyc ADDED Viewed

Binary file (16.1 kB). View file

utils/__pycache__/retriever.cpython-38.pyc ADDED Viewed

Binary file (4.27 kB). View file

utils/__pycache__/transcript_retrieval.cpython-38.pyc ADDED Viewed

Binary file (658 Bytes). View file

utils/__pycache__/vector_index.cpython-38.pyc ADDED Viewed

Binary file (1.77 kB). View file

utils/models.py CHANGED Viewed

@@ -9,6 +9,7 @@ import spacy_transformers
 import streamlit_scrollable_textbox as stx
 import torch
 from sentence_transformers import SentenceTransformer
 from tqdm import tqdm
 from transformers import (
     AutoModelForMaskedLM,
@@ -95,6 +96,13 @@ def get_sgpt_embedding_model():
     return model
 @st.experimental_memo
 def save_key(api_key):
     return api_key

 import streamlit_scrollable_textbox as stx
 import torch
 from sentence_transformers import SentenceTransformer
+from InstructorEmbedding import INSTRUCTOR
 from tqdm import tqdm
 from transformers import (
     AutoModelForMaskedLM,
     return model
+@st.experimental_singleton
+def get_instructor_embedding_model():
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    model = INSTRUCTOR("hkunlp/instructor-large")
+    return model
 @st.experimental_memo
 def save_key(api_key):
     return api_key