symptom_recommender_top_150_symps

Runtime error

App Files Files Community

warleagle commited on Feb 22

Commit

7b86ace

•

1 Parent(s): 44ec690

Upload 5 files

Browse files

Files changed (6) hide show

.gitattributes +1 -0
app.py +67 -0
embeddings.npy +3 -0
etalon_prod.csv +0 -0
preprocessed_train_classify_rec_spec_filtered_by_etalon.csv +3 -0
requirements.txt +11 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+preprocessed_train_classify_rec_spec_filtered_by_etalon.csv filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,67 @@

+#%%
+import pandas as pd
+import numpy as np
+import torch
+from sentence_transformers.util import cos_sim
+from sentence_transformers import SentenceTransformer
+import gradio as gr
+#%%
+etalon = pd.read_csv("data/symptomps_specialist_mkb_issledovania/ranker/raw_data/etalon_prod.csv")
+df = pd.read_csv("data/symptomps_specialist_mkb_issledovania/ranker/raw_data/preprocessed_train_classify_rec_spec_filtered_by_etalon.csv")
+df = df[df['is_match'] == 1]
+model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2').to("cuda")
+device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+unique_complaints = df['Жалобы'].values.tolist()
+with open("experiments/symptom_recommender/embeddings_scripts/app/embeddings.npy", 'rb') as f:
+    unique_complaints_embeddings_st = np.load(f)
+def get_recommend(user_input,
+                  top_k_spec = 3,
+                  top_k_services = 10,
+                  treshold = 0.8):
+    cols_for_top_k = ["Специальность врача",
+                      "Рекомендуемые специалисты"]
+    usr_embeddings = model.encode(user_input)
+    cos_similarity = cos_sim(usr_embeddings, unique_complaints_embeddings_st).detach().numpy()
+    sorted_idx = cos_similarity[0].argsort()[::-1]
+    cos_similarity.sort()
+    cos_similarity = cos_similarity[0][::-1]
+    sorted_df = df.loc[sorted_idx].copy()
+    sorted_df['cos_sim'] = cos_similarity
+    sorted_df = sorted_df[sorted_df['cos_sim'] > treshold]
+    result = {}
+    for col in cols_for_top_k:
+        result[col] = sorted_df[col].value_counts()[:top_k_spec].index.tolist()
+    result['Жалобы'] = sorted_df['Жалобы'].value_counts()[:top_k_services].index.tolist()
+    lst = []
+    categories = ['Инструментальная диагностика', 'Лабораторная диагностика']
+    for category in categories:
+        list_top_k_services = sorted_df[sorted_df['preds'] == category]['Рекомендации по обследованию'].value_counts()[:top_k_services].index.tolist()
+        lst.append({category:list_top_k_services})
+    result['Рекомендации по обследованию'] = lst
+    return result
+#%%
+gradio_app = gr.Interface(
+    get_recommend,
+    inputs='text',
+    outputs=gr.JSON(label='s'),
+    # title="Предсказание топ-10 наиболее схожих услуг",
+    description="Введите услугу:"
+)
+if __name__ == "__main__":
+    gradio_app.launch()
+# %%

embeddings.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8a8829bdaaefb664cc0f6eabe9189155bffc2ba10eb65925e8f495fdf87eea2
+size 106245248

etalon_prod.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

preprocessed_train_classify_rec_spec_filtered_by_etalon.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e9f6f60f027af0575ab1cd10cb0ec3af316e90a689431ce0a51d80b9af11dd9
+size 28425854

requirements.txt ADDED Viewed

	@@ -0,0 +1,11 @@

+transformers
+torch
+numpy
+evaluate
+scikit-learn
+datasets
+tqdm
+minio
+python-dotenv
+accelerate
+sentence-transformers