More_Advanced_Embeddings_Comparator

Running

Chris4K commited on Oct 18, 2024

Commit

0913118

verified ·

1 Parent(s): 108d06b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -249,17 +249,25 @@ def search_embeddings(chunks, embedding_model, vector_store_type, search_type, q
     start_time = time.time()
     results = retriever.invoke(preprocessed_query)
     def score_result(doc):
         similarity_score = vector_store.similarity_search_with_score(doc.page_content, k=1)[0][1]
         phonetic_score = phonetic_match(doc.page_content, query)
         return (1 - phonetic_weight) * similarity_score + phonetic_weight * phonetic_score
     results = sorted(results, key=score_result, reverse=True)
     end_time = time.time()
-    return results[:top_k], end_time - start_time, vector_store
 # Evaluation Metrics
 def calculate_statistics(results, search_time, vector_store, num_tokens, embedding_model, query, top_k):

     start_time = time.time()
     results = retriever.invoke(preprocessed_query)
     def score_result(doc):
         similarity_score = vector_store.similarity_search_with_score(doc.page_content, k=1)[0][1]
         phonetic_score = phonetic_match(doc.page_content, query)
         return (1 - phonetic_weight) * similarity_score + phonetic_weight * phonetic_score
     results = sorted(results, key=score_result, reverse=True)
     end_time = time.time()
+    # Extract embeddings for each result and store them in the DataFrame
+    embeddings = [embedding_model.embed_query(doc.page_content) for doc in results]
+    # Create a DataFrame with the results and embeddings
+    results_df = pd.DataFrame({
+        'content': [doc.page_content for doc in results],
+        'embedding': embeddings
+    })
+    return results_df, end_time - start_time, vector_store
 # Evaluation Metrics
 def calculate_statistics(results, search_time, vector_store, num_tokens, embedding_model, query, top_k):