BERT-for-Patents_Semantic-Patent-Finder-v2

Running

App Files Files Community

bhlewis commited on Jul 26, 2024

Commit

b661953

verified ·

1 Parent(s): 5df2c8a

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -4

app.py CHANGED Viewed

@@ -49,10 +49,32 @@ model = SentenceTransformer('all-mpnet-base-v2')
 tfidf_vectorizer = TfidfVectorizer(stop_words='english')
 tfidf_matrix = tfidf_vectorizer.fit_transform(texts)
 def hybrid_search(query, top_k=5):
-    print(f"Searching for: {query}")
-    # Encode the query using the transformer model
     query_embedding = model.encode([query])[0]
     query_embedding = query_embedding / np.linalg.norm(query_embedding)
@@ -60,7 +82,7 @@ def hybrid_search(query, top_k=5):
     semantic_distances, semantic_indices = index.search(np.array([query_embedding]), top_k * 2)
     # Perform TF-IDF based search
-    query_tfidf = tfidf_vectorizer.transform([query])
     tfidf_similarities = cosine_similarity(query_tfidf, tfidf_matrix).flatten()
     tfidf_indices = tfidf_similarities.argsort()[-top_k * 2:][::-1]
@@ -68,7 +90,7 @@ def hybrid_search(query, top_k=5):
     combined_results = {}
     for i, idx in enumerate(semantic_indices[0]):
         patent_number = patent_numbers[idx].decode('utf-8')
-        combined_results[patent_number] = semantic_distances[0][i]
     for idx in tfidf_indices:
         patent_number = patent_numbers[idx].decode('utf-8')

 tfidf_vectorizer = TfidfVectorizer(stop_words='english')
 tfidf_matrix = tfidf_vectorizer.fit_transform(texts)
+# Synonym dictionary for query expansion
+synonyms = {
+    "slidable": ["detachable", "removable"],
+    "flexible": ["elastic", "deformable"],
+    "aerosol": ["vapor"],
+    "device": ["generator"]
+}
+def expand_query(query):
+    words = query.split()
+    expanded_query = []
+    for word in words:
+        if word in synonyms:
+            expanded_query.append(f"({word} OR {' OR '.join(synonyms[word])})")
+        else:
+            expanded_query.append(word)
+    return " ".join(expanded_query)
 def hybrid_search(query, top_k=5):
+    print(f"Original query: {query}")
+    # Expand the query using synonyms
+    expanded_query = expand_query(query)
+    print(f"Expanded query: {expanded_query}")
+    # Encode the original query using the transformer model
     query_embedding = model.encode([query])[0]
     query_embedding = query_embedding / np.linalg.norm(query_embedding)
     semantic_distances, semantic_indices = index.search(np.array([query_embedding]), top_k * 2)
     # Perform TF-IDF based search
+    query_tfidf = tfidf_vectorizer.transform([expanded_query])
     tfidf_similarities = cosine_similarity(query_tfidf, tfidf_matrix).flatten()
     tfidf_indices = tfidf_similarities.argsort()[-top_k * 2:][::-1]
     combined_results = {}
     for i, idx in enumerate(semantic_indices[0]):
         patent_number = patent_numbers[idx].decode('utf-8')
+        combined_results[patent_number] = semantic_distances[0][i] * 1.5  # Increase weight for semantic similarity
     for idx in tfidf_indices:
         patent_number = patent_numbers[idx].decode('utf-8')