gte-ecommerce

Sleeping

Abdul-Ib commited on Jan 18

Commit

ed8ff18

•

1 Parent(s): 0eed396

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,9 +5,14 @@ import pprint
 from sentence_transformers import SentenceTransformer, CrossEncoder, util
 # read data
-df = pd.read_csv('./assets/final_combined.csv').to_dict(orient='records')
 doc_embeddings = np.load('./assets/final_combined_embed.npy', allow_pickel=True)
 def semantic_search(normalized_query):
     '''
     function to perform semantic search given a search query
@@ -20,7 +25,7 @@ def re_ranker(normalized_query, hits):
     '''
     function to re-rank semantic search results using cross encoding
     '''
-    cross_inp = [[query, doc_embeddings[hit['corpus_id']]] for hit in hit]
     cross_scores = cross_encoder.predict(cross_inp)
     for idx in range(len(cross_scores)):
@@ -31,7 +36,7 @@ def re_ranker(normalized_query, hits):
 def print_results(hits, k_items):
     results = ""
     for hit in hits[:k_items]:
-        results += pprint.pformat(df[hit['corpus_id']], indent=4)
     return results
 def predict(query):

 from sentence_transformers import SentenceTransformer, CrossEncoder, util
 # read data
+df = pd.read_csv('./assets/final_combined.csv')
+df_dict = df.to_dict(orient='records')
 doc_embeddings = np.load('./assets/final_combined_embed.npy', allow_pickel=True)
+# models
+bi_encoder = SentenceTransformer("intfloat/multilingual-e5-base", cache_folder = "./assets")
+cross_encoder = CrossEncoder('cross-encoder/nli-deberta-v3-base')
 def semantic_search(normalized_query):
     '''
     function to perform semantic search given a search query
     '''
     function to re-rank semantic search results using cross encoding
     '''
+    cross_inp = [[query, df['representation'][hit['corpus_id']]] for hit in hit]
     cross_scores = cross_encoder.predict(cross_inp)
     for idx in range(len(cross_scores)):
 def print_results(hits, k_items):
     results = ""
     for hit in hits[:k_items]:
+        results += pprint.pformat(df_dict[hit['corpus_id']], indent=4)
     return results
 def predict(query):