BERT-for-Patents_Semantic-Patent-Finder-v2

Running

App Files Files Community

bhlewis commited on Jul 29, 2024

Commit

c884348

verified ·

1 Parent(s): 1f521fb

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -26

app.py CHANGED Viewed

@@ -6,7 +6,9 @@ import json
 from transformers import AutoTokenizer, AutoModel
 from sentence_transformers import SentenceTransformer, models
 from sklearn.feature_extraction.text import TfidfVectorizer
 import re
 import spacy
 import joblib
@@ -50,7 +52,9 @@ embeddings, patent_numbers, metadata, texts = load_data()
 try:
     tokenizer = AutoTokenizer.from_pretrained('anferico/bert-for-patents')
     bert_model = AutoModel.from_pretrained('anferico/bert-for-patents')
-    model = SentenceTransformer(modules=[models.Transformer(model_name='anferico/bert-for-patents'), models.Pooling(bert_model.config.hidden_size)])
 except Exception as e:
     print(f"Error loading anferico/bert-for-patents: {e}")
     print("Falling back to a general-purpose model.")
@@ -99,28 +103,4 @@ def hybrid_search(query, top_k=5):
     query_embedding = query_embedding / np.linalg.norm(query_embedding)
     # Perform semantic similarity search
-    semantic_distances, semantic_indices = index.search(np.array([query_embedding]), top_k)
-    results = []
-    for i in range(top_k):
-        patent_number = patent_numbers[semantic_indices[0][i]]
-        patent_data = metadata[patent_number]
-        patent_features = extract_key_features(patent_data['text'])
-        common_features, similarity_score = compare_features(query_features, patent_features)
-        results.append({
-            'patent_number': patent_number,
-            'common_features': common_features,
-            'similarity_score': similarity_score,
-            'semantic_score': semantic_distances[0][i]
-        })
-    return results
-iface = gr.Interface(
-    fn=hybrid_search,
-    inputs=gr.inputs.Textbox(label="Enter your search query"),
-    outputs=gr.outputs.JSON(label="Search Results")
-)
-iface.launch()

 from transformers import AutoTokenizer, AutoModel
 from sentence_transformers import SentenceTransformer, models
 from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.metrics.pairwise import cosine_similarity
 import re
+from collections import Counter
 import spacy
 import joblib
 try:
     tokenizer = AutoTokenizer.from_pretrained('anferico/bert-for-patents')
     bert_model = AutoModel.from_pretrained('anferico/bert-for-patents')
+    word_embedding_model = models.Transformer(model_name='anferico/bert-for-patents', tokenizer=tokenizer, model=bert_model)
+    pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())
+    model = SentenceTransformer(modules=[word_embedding_model, pooling_model])
 except Exception as e:
     print(f"Error loading anferico/bert-for-patents: {e}")
     print("Falling back to a general-purpose model.")
     query_embedding = query_embedding / np.linalg.norm(query_embedding)
     # Perform semantic similarity search
+    semantic_distances, semantic