Spaces:

ivan-savchuk
/

medical-search

Runtime error

App Files Files Community

ivan-savchuk commited on Jul 30, 2022

Commit

0853141

1 Parent(s): 16fbbdb

update for faiss only

Browse files

Files changed (1) hide show

app.py +21 -9

app.py CHANGED Viewed

@@ -32,24 +32,32 @@ class DocumentSearch:
         # loading faiss index
         self.index = faiss.read_index(DocumentSearch.idx_path)
         # loading sbert cross_encoder
-        self.cross_encoder = CrossEncoder(DocumentSearch.cross_enc_path)
     def search(self, query: str, k: int) -> list:
         # get vector representation of text query
         query_vector = self.encoder.encode([query])
         # perform search via faiss FlatIP index
-        _, indeces = self.index.search(query_vector, k*10)
         # get answers by index
-        answers = [self.docs[i] for i in indeces[0]]
         # prepare inputs for cross encoder
-        model_inputs = [[query, pairs[0]] for pairs in answers]
-        urls = [pairs[1] for pairs in answers]
         # get similarity score between query and documents
-        scores = self.cross_encoder.predict(model_inputs, batch_size=1)
         # compose results into list of dicts
-        results = [{'doc': doc[1], 'url': url, 'score': score} for doc, url, score in zip(model_inputs, urls, scores)]
-        # return results sorteed by similarity scores
-        return sorted(results, key=lambda x: x['score'], reverse=True)[:k]
 if __name__ == "__main__":
@@ -99,3 +107,7 @@ if __name__ == "__main__":
         st.markdown("---")
         st.markdown("**Author:** Ivan Savchuk. 2022")

         # loading faiss index
         self.index = faiss.read_index(DocumentSearch.idx_path)
         # loading sbert cross_encoder
+        # self.cross_encoder = CrossEncoder(DocumentSearch.cross_enc_path)
     def search(self, query: str, k: int) -> list:
         # get vector representation of text query
         query_vector = self.encoder.encode([query])
         # perform search via faiss FlatIP index
+        distances, indeces = self.index.search(query_vector, k*10)
+        # get docs by index
+        docs = [self.labels[i] for i in indeces[0]]
+        # get scores by index
+        dists = [dist for dist in distances[0]]
+        return[{'doc': doc[0], 'url':, doc[1], 'score': dist} for doc, dist in zip(docs, dists)]
+        ##### OLD VERSION WITH CROSS-ENCODER #####
         # get answers by index
+        #answers = [self.docs[i] for i in indeces[0]]
         # prepare inputs for cross encoder
+        # model_inputs = [[query, pairs[0]] for pairs in answers]
+        # urls = [pairs[1] for pairs in answers]
         # get similarity score between query and documents
+        # scores = self.cross_encoder.predict(model_inputs, batch_size=1)
         # compose results into list of dicts
+        # results = [{'doc': doc[1], 'url': url, 'score': score} for doc, url, score in zip(model_inputs, urls, scores)]
+        # return results sorted by similarity scores
+        # return sorted(results, key=lambda x: x['score'], reverse=True)[:k]
 if __name__ == "__main__":
         st.markdown("---")
         st.markdown("**Author:** Ivan Savchuk. 2022")
+    else:
+        st.markdown("Typical queries looks like this: _**\"What is flu?\"**_,\
+                    _**\"How to cure breast cancer?\"**_,\
+                    _**\"I have headache, what should I do?\"**_")