Spaces:

RomyMy
/

EcomShoppingBuddy

Running

App Files Files Community

RomyMy commited on Oct 31, 2023

Commit

4304dbd

•

1 Parent(s): 116461b

fix code 6

Browse files

Files changed (3) hide show

app.py +11 -15
constants.py +14 -0
preprocess.py +32 -28

app.py CHANGED Viewed

@@ -1,9 +1,6 @@
-import os
 import numpy as np
 import redis
 import streamlit as st
-from dotenv import load_dotenv
 from langchain import HuggingFaceHub
 from langchain.chains import LLMChain
 from langchain.chat_models import ChatOpenAI
@@ -17,18 +14,17 @@ from constants import (
     FALCON_MAX_TOKENS,
     FALCON_REPO_ID,
     FALCON_TEMPERATURE,
     OPENAI_MODEL_NAME,
     OPENAI_TEMPERATURE,
     TEMPLATE_1,
     TEMPLATE_2,
 )
 from database import create_redis
-load_dotenv()
-HUGGINGFACEHUB_API_TOKEN = os.getenv("HUGGINGFACEHUB_API_TOKEN")
-ITEM_KEYWORD_EMBEDDING = "item_vector"
-TOPK = 5
 # connect to redis database
 @st.cache_resource()
@@ -54,15 +50,12 @@ def encode_keywords_chain():
 # the present products chain
-@st.cache_resource()
 def present_products_chain():
     template = TEMPLATE_2
     memory = ConversationBufferMemory(memory_key="chat_history")
     prompt = PromptTemplate(input_variables=["chat_history", "user_msg"], template=template)
     chain = LLMChain(
-        llm=ChatOpenAI(
-            openai_api_key=os.getenv("OPENAI_API_KEY"), temperature=OPENAI_TEMPERATURE, model=OPENAI_MODEL_NAME
-        ),
         prompt=prompt,
         verbose=False,
         memory=memory,
@@ -81,7 +74,11 @@ def main():
     st.caption("🤖 Powered by Falcon Open Source AI model")
     redis_conn = connect_to_redis()
     keywords_chain = encode_keywords_chain()
-    chat_chain = present_products_chain()
     embedding_model = instance_embedding_model()
     if "messages" not in st.session_state:
@@ -102,7 +99,6 @@ def main():
         query_vector = embedding_model.encode(keywords)
         query_vector_bytes = np.array(query_vector).astype(np.float32).tobytes()
         # prepare the query
         q = (
             Query(f"*=>[KNN {TOPK} @{ITEM_KEYWORD_EMBEDDING} $vec_param AS vector_score]")
             .sort_by("vector_score")
@@ -116,7 +112,7 @@ def main():
         result_output = ""
         for product in results.docs:
             result_output += f"product_name:{product.item_name}, product_description:{product.item_keywords} \n"
-        result = chat_chain.predict(user_msg=f"{result_output}\n{prompt}")
         st.session_state.messages.append({"role": "assistant", "content": result})
         st.chat_message("assistant").write(result)

 import numpy as np
 import redis
 import streamlit as st
 from langchain import HuggingFaceHub
 from langchain.chains import LLMChain
 from langchain.chat_models import ChatOpenAI
     FALCON_MAX_TOKENS,
     FALCON_REPO_ID,
     FALCON_TEMPERATURE,
+    HUGGINGFACEHUB_API_TOKEN,
+    ITEM_KEYWORD_EMBEDDING,
+    OPENAI_API_KEY,
     OPENAI_MODEL_NAME,
     OPENAI_TEMPERATURE,
     TEMPLATE_1,
     TEMPLATE_2,
+    TOPK,
 )
 from database import create_redis
 # connect to redis database
 @st.cache_resource()
 # the present products chain
 def present_products_chain():
     template = TEMPLATE_2
     memory = ConversationBufferMemory(memory_key="chat_history")
     prompt = PromptTemplate(input_variables=["chat_history", "user_msg"], template=template)
     chain = LLMChain(
+        llm=ChatOpenAI(openai_api_key=OPENAI_API_KEY, temperature=OPENAI_TEMPERATURE, model=OPENAI_MODEL_NAME),
         prompt=prompt,
         verbose=False,
         memory=memory,
     st.caption("🤖 Powered by Falcon Open Source AI model")
     redis_conn = connect_to_redis()
     keywords_chain = encode_keywords_chain()
+    if "window_refreshed" not in st.session_state:
+        st.session_state.window_refreshed = True
+        st.session_state.chat_chain = present_products_chain()
     embedding_model = instance_embedding_model()
     if "messages" not in st.session_state:
         query_vector = embedding_model.encode(keywords)
         query_vector_bytes = np.array(query_vector).astype(np.float32).tobytes()
         # prepare the query
         q = (
             Query(f"*=>[KNN {TOPK} @{ITEM_KEYWORD_EMBEDDING} $vec_param AS vector_score]")
             .sort_by("vector_score")
         result_output = ""
         for product in results.docs:
             result_output += f"product_name:{product.item_name}, product_description:{product.item_keywords} \n"
+        result = st.session_state.chat_chain.predict(user_msg=f"{result_output}\n{prompt}")
         st.session_state.messages.append({"role": "assistant", "content": result})
         st.chat_message("assistant").write(result)

constants.py CHANGED Viewed

@@ -1,11 +1,25 @@
 FALCON_REPO_ID = "tiiuae/falcon-7b-instruct"
 FALCON_TEMPERATURE = 0.1
 FALCON_MAX_TOKENS = 500
 OPENAI_MODEL_NAME = "gpt-3.5-turbo"
 OPENAI_TEMPERATURE = 0.8
 EMBEDDING_MODEL_NAME = "sentence-transformers/all-distilroberta-v1"
 TEMPLATE_1 = "Create comma separated product keywords to perform a query on amazon dataset for this user input: {product_description}"
 TEMPLATE_2 = """You are a salesman.Present the given product results in a nice way as answer to the user_msg. Don't ask questions back,

+import os
+from dotenv import load_dotenv
+load_dotenv()
+HUGGINGFACEHUB_API_TOKEN = os.getenv("HUGGINGFACEHUB_API_TOKEN")
 FALCON_REPO_ID = "tiiuae/falcon-7b-instruct"
 FALCON_TEMPERATURE = 0.1
 FALCON_MAX_TOKENS = 500
 OPENAI_MODEL_NAME = "gpt-3.5-turbo"
 OPENAI_TEMPERATURE = 0.8
+OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
 EMBEDDING_MODEL_NAME = "sentence-transformers/all-distilroberta-v1"
+ITEM_KEYWORD_EMBEDDING = "item_vector"
+TOPK = 5
+NUMBER_PRODUCTS = 1000
+MAX_TEXT_LENGTH = 512
+TEXT_EMBEDDING_DIMENSION = 768
+DATA_PATH = "product_data.csv"
 TEMPLATE_1 = "Create comma separated product keywords to perform a query on amazon dataset for this user input: {product_description}"
 TEMPLATE_2 = """You are a salesman.Present the given product results in a nice way as answer to the user_msg. Don't ask questions back,

preprocess.py CHANGED Viewed

@@ -3,42 +3,46 @@ import pandas as pd
 import redis
 from sentence_transformers import SentenceTransformer
 from database import create_redis
 from utils import create_flat_index, load_vectors
 pool = create_redis()
 redis_conn = redis.Redis(connection_pool=pool)
-# set maximum length for text fields
-MAX_TEXT_LENGTH = 512
-TEXT_EMBEDDING_DIMENSION = 768
-NUMBER_PRODUCTS = 10000
 def auto_truncate(text: str):
     return text[0:MAX_TEXT_LENGTH]
-data = pd.read_csv(
-    "product_data.csv",
-    converters={"bullet_point": auto_truncate, "item_keywords": auto_truncate, "item_name": auto_truncate},
-)
-data["primary_key"] = data["item_id"] + "-" + data["domain_name"]
-data.drop(columns=["item_id", "domain_name"], inplace=True)
-data["item_keywords"].replace("", np.nan, inplace=True)
-data.dropna(subset=["item_keywords"], inplace=True)
-data.reset_index(drop=True, inplace=True)
-data_metadata = data.head(10000).to_dict(orient="index")
-# generating embeddings (vectors) for the item keywords
-embedding_model = SentenceTransformer("sentence-transformers/all-distilroberta-v1")
-# embedding_model = OpenAIEmbeddings(openai_api_key=openai_api_key)
-# get the item keywords attribute for each product and encode them into vector embeddings
-item_keywords = [data_metadata[i]["item_keywords"] for i in data_metadata.keys()]
-item_keywords_vectors = [embedding_model.encode(item) for item in item_keywords]
-# flush all data
-redis_conn.flushall()
-# create flat index & load vectors
-create_flat_index(redis_conn, NUMBER_PRODUCTS, TEXT_EMBEDDING_DIMENSION, "COSINE")
-load_vectors(redis_conn, data_metadata, item_keywords_vectors)

 import redis
 from sentence_transformers import SentenceTransformer
+from constants import (
+    DATA_PATH,
+    MAX_TEXT_LENGTH,
+    NUMBER_PRODUCTS,
+    TEXT_EMBEDDING_DIMENSION,
+)
 from database import create_redis
 from utils import create_flat_index, load_vectors
 pool = create_redis()
 redis_conn = redis.Redis(connection_pool=pool)
 def auto_truncate(text: str):
     return text[0:MAX_TEXT_LENGTH]
+def data_preprocessing_and_loading():
+    data = pd.read_csv(
+        DATA_PATH,
+        converters={"bullet_point": auto_truncate, "item_keywords": auto_truncate, "item_name": auto_truncate},
+    )
+    data["primary_key"] = data["item_id"] + "-" + data["domain_name"]
+    data.drop(columns=["item_id", "domain_name"], inplace=True)
+    data["item_keywords"].replace("", np.nan, inplace=True)
+    data.dropna(subset=["item_keywords"], inplace=True)
+    data.reset_index(drop=True, inplace=True)
+    data_metadata = data.head(NUMBER_PRODUCTS).to_dict(orient="index")
+    # generate embeddings (vectors) for the item keywords
+    embedding_model = SentenceTransformer("sentence-transformers/all-distilroberta-v1")
+    # get the item keywords attribute for each product and encode them into vector embeddings
+    item_keywords = [data_metadata[i]["item_keywords"] for i in data_metadata.keys()]
+    item_keywords_vectors = [embedding_model.encode(item) for item in item_keywords]
+    # flush all data
+    redis_conn.flushall()
+    # create flat index & load vectors
+    create_flat_index(redis_conn, NUMBER_PRODUCTS, TEXT_EMBEDDING_DIMENSION, "COSINE")
+    load_vectors(redis_conn, data_metadata, item_keywords_vectors)
+if __name__ == "__main__":
+    data_preprocessing_and_loading()