More_Advanced_Embeddings_Comparator

Running

Chris4K commited on Oct 18

Commit

52d5b06

•

1 Parent(s): 7803d2d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -258,15 +258,20 @@ def search_embeddings(chunks, embedding_model, vector_store_type, search_type, q
     results = sorted(results, key=score_result, reverse=True)
     end_time = time.time()
-    # Extract embeddings for each result and store them in the DataFrame
-    embeddings = [embedding_model.embed_query(doc.page_content) for doc in results]
     # Create a DataFrame with the results and embeddings
     results_df = pd.DataFrame({
         'content': [doc.page_content for doc in results],
         'embedding': embeddings
     })
     return results_df, end_time - start_time, vector_store, results
 # Evaluation Metrics
@@ -393,6 +398,8 @@ def compare_embeddings(file, query, model_types, model_names, split_strategy, ch
         )
         # Storing embeddings into the results for future use
         result_embeddings = [doc.metadata['embedding'] for doc in results_raw]  # Adjust this based on the actual attribute names
 #        result_embeddings = [doc['embedding'] for doc in results_raw]  # Assuming each result has an embedding

     results = sorted(results, key=score_result, reverse=True)
     end_time = time.time()
+    # Check if embeddings are available
+    embeddings = []
+    for doc in results:
+        if hasattr(doc, 'embedding'):
+            embeddings.append(doc.embedding)  # Use the embedding if it exists
+        else:
+            embeddings.append(None)  # Append None if embedding doesn't exist
     # Create a DataFrame with the results and embeddings
     results_df = pd.DataFrame({
         'content': [doc.page_content for doc in results],
         'embedding': embeddings
     })
     return results_df, end_time - start_time, vector_store, results
 # Evaluation Metrics
         )
         # Storing embeddings into the results for future use
+        for doc in results_raw:
+            print(doc)  # or print(dir(doc)) to see available attributes
         result_embeddings = [doc.metadata['embedding'] for doc in results_raw]  # Adjust this based on the actual attribute names
 #        result_embeddings = [doc['embedding'] for doc in results_raw]  # Assuming each result has an embedding