DeepSEQreen_NAR_fb

Sleeping

App Files Files Community

libokj commited on Mar 31, 2024

Commit

c8b558a

1 Parent(s): de6cad6

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -23

app.py CHANGED Viewed

@@ -23,6 +23,7 @@ from email_validator import validate_email, EmailNotValidError
 import gradio as gr
 import hydra
 import pandas as pd
 import requests
 from requests.adapters import HTTPAdapter, Retry
 from markdown import markdown
@@ -41,7 +42,7 @@ import panel as pn
 from apscheduler.schedulers.background import BackgroundScheduler
 from tinydb import TinyDB, Query
-import swifter
 from tqdm.auto import tqdm
 from deepscreen.data.dti import validate_seq_str, rdkit_canonicalize, FASTA_PAT, SMILES_PAT
@@ -719,15 +720,12 @@ def update_df(file, progress=gr.Progress(track_tqdm=True)):
             gr.Warning("At least one of columns `X1` and `X2` must be in the uploaded dataset.")
             return {analyze_btn: gr.Button(interactive=False)}
         if 'X1' in df.columns:
-            df['Scaffold SMILES'] = df['X1'].swifter.progress_bar(
-                desc=f"Calculating scaffold...").apply(MurckoScaffold.MurckoScaffoldSmilesFromSmiles)
-            df['Scaffold'] = df['Scaffold SMILES'].swifter.progress_bar(
-                desc='Generating scaffold graphs...').apply(
                 lambda smiles: PandasTools._MolPlusFingerprint(Chem.MolFromSmiles(smiles)))
             # Add a new column with RDKit molecule objects
             if 'Compound' not in df.columns or df['Compound'].dtype != 'object':
-                df['Compound'] = df['X1'].swifter.progress_bar(
-                    desc='Generating molecular graphs...').apply(
                     lambda smiles: PandasTools._MolPlusFingerprint(Chem.MolFromSmiles(smiles)))
         # DF_FOR_REPORT = df.copy()
@@ -806,19 +804,16 @@ def create_html_report(df, file=None, task=None, progress=gr.Progress(track_tqdm
         elif 'Y^' in df_html.columns:
             job = 'Interaction Pair Inference'
     if 'Compound' in df_html.columns:
-        df_html['Compound'] = df_html['Compound'].swifter.progress_bar(
-            desc='Generating compound graph...').apply(
             lambda x: PandasTools.PrintAsImageString(x) if not pd.isna(x) else x)
     if 'Scaffold' in df_html.columns:
-        df_html['Scaffold'] = df_html['Scaffold'].swifter.progress_bar(
-            desc='Generating scaffold graph...').apply(
             lambda x: PandasTools.PrintAsImageString(x) if not pd.isna(x) else x)
     df_html.rename(columns=column_aliases, inplace=True)
     df_html.index.name = 'Index'
     if 'Target FASTA' in df_html.columns:
-        df_html['Target FASTA'] = df_html['Target FASTA'].swifter.progress_bar(
-            desc='Processing FASTA...').apply(
             lambda x: wrap_text(x) if not pd.isna(x) else x)
     num_cols = df_html.select_dtypes('number').columns
@@ -836,8 +831,7 @@ def create_html_report(df, file=None, task=None, progress=gr.Progress(track_tqdm
         if 'Target ID' in df_html.columns:
             df_html.drop(['Target FASTA'], axis=1, inplace=True)
         if 'Target FASTA' in df_html.columns:
-            df_html['Target FASTA'] = df_html['Target FASTA'].swifter.progress_bar(
-                desc='Processing FASTA...').apply(
                 lambda x: wrap_text(x) if not pd.isna(x) else x)
         if 'Scaffold SMILES' in df_html.columns:
             df_html.drop(['Scaffold SMILES'], axis=1, inplace=True)
@@ -1091,13 +1085,11 @@ def submit_report(df, score_list, filter_list, task, progress=gr.Progress(track_
     df_report = df.copy()
     try:
         for filter_name in filter_list:
-            df_report[filter_name] = df_report['Compound'].swifter.progress_bar(
-                desc=f"Calculating {filter_name}").apply(
                 lambda x: FILTER_MAP[filter_name](x) if not pd.isna(x) else x)
         for score_name in score_list:
-            df_report[score_name] = df_report['Compound'].swifter.progress_bar(
-                desc=f"Calculating {score_name}").apply(
                 lambda x: SCORE_MAP[score_name](x) if not pd.isna(x) else x)
         # pie_chart = None
@@ -1713,8 +1705,7 @@ with gr.Blocks(theme=theme, title='DeepSEQreen', css=CSS, delete_cache=(3600, 48
             def align_score(query):
                 return aligner.align(processed_fasta, query).score
-            alignment_df['score'] = alignment_df['X2'].swifter.progress_bar(
-                desc="Detecting protein family of the target...").apply(align_score)
             row = alignment_df.loc[alignment_df['score'].idxmax()]
             return gr.Dropdown(value=row['protein_family'],
                                info=f"Reason: Best BLASTP score ({row['score']}) "
@@ -2022,13 +2013,13 @@ QALAHAYFAQYHDPDDEPVADPYDQSFESRDLLIDEWKSLTYDEVISFVPPPLDQEEMES
             infer_df = pd.read_csv(drug_target_pair_upload)
             validate_columns(infer_df, ['X1', 'X2'])
-            infer_df['X1_ERR'] = infer_df['X1'].swifter.progress_bar(desc="Validating SMILES...").apply(
                 validate_seq_str, regex=SMILES_PAT)
             if not infer_df['X1_ERR'].isna().all():
                 raise ValueError(
                     f"Encountered invalid SMILES:\n{infer_df[~infer_df['X1_ERR'].isna()][['X1', 'X1_ERR']]}")
-            infer_df['X2_ERR'] = infer_df['X2'].swifter.progress_bar(desc="Validating FASTA...").apply(
                 validate_seq_str, regex=FASTA_PAT)
             if not infer_df['X2_ERR'].isna().all():
                 raise ValueError(
@@ -2278,4 +2269,5 @@ QALAHAYFAQYHDPDDEPVADPYDQSFESRDLLIDEWKSLTYDEVISFVPPPLDQEEMES
 if __name__ == "__main__":
     hydra.initialize(version_base="1.3", config_path="configs", job_name="webserver_inference")
     demo.queue(default_concurrency_limit=None, max_size=10).launch(show_api=False)

 import gradio as gr
 import hydra
 import pandas as pd
+from pandarallel import pandarallel
 import requests
 from requests.adapters import HTTPAdapter, Retry
 from markdown import markdown
 from apscheduler.schedulers.background import BackgroundScheduler
 from tinydb import TinyDB, Query
+# import swifter
 from tqdm.auto import tqdm
 from deepscreen.data.dti import validate_seq_str, rdkit_canonicalize, FASTA_PAT, SMILES_PAT
             gr.Warning("At least one of columns `X1` and `X2` must be in the uploaded dataset.")
             return {analyze_btn: gr.Button(interactive=False)}
         if 'X1' in df.columns:
+            df['Scaffold SMILES'] = df['X1'].parallel_apply(MurckoScaffold.MurckoScaffoldSmilesFromSmiles)
+            df['Scaffold'] = df['Scaffold SMILES'].parallel_apply(
                 lambda smiles: PandasTools._MolPlusFingerprint(Chem.MolFromSmiles(smiles)))
             # Add a new column with RDKit molecule objects
             if 'Compound' not in df.columns or df['Compound'].dtype != 'object':
+                df['Compound'] = df['X1'].parallel_apply(
                     lambda smiles: PandasTools._MolPlusFingerprint(Chem.MolFromSmiles(smiles)))
         # DF_FOR_REPORT = df.copy()
         elif 'Y^' in df_html.columns:
             job = 'Interaction Pair Inference'
     if 'Compound' in df_html.columns:
+        df_html['Compound'] = df_html['Compound'].parallel_apply(
             lambda x: PandasTools.PrintAsImageString(x) if not pd.isna(x) else x)
     if 'Scaffold' in df_html.columns:
+        df_html['Scaffold'] = df_html['Scaffold'].parallel_apply(
             lambda x: PandasTools.PrintAsImageString(x) if not pd.isna(x) else x)
     df_html.rename(columns=column_aliases, inplace=True)
     df_html.index.name = 'Index'
     if 'Target FASTA' in df_html.columns:
+        df_html['Target FASTA'] = df_html['Target FASTA'].parallel_apply(
             lambda x: wrap_text(x) if not pd.isna(x) else x)
     num_cols = df_html.select_dtypes('number').columns
         if 'Target ID' in df_html.columns:
             df_html.drop(['Target FASTA'], axis=1, inplace=True)
         if 'Target FASTA' in df_html.columns:
+            df_html['Target FASTA'] = df_html['Target FASTA'].parallel_apply(
                 lambda x: wrap_text(x) if not pd.isna(x) else x)
         if 'Scaffold SMILES' in df_html.columns:
             df_html.drop(['Scaffold SMILES'], axis=1, inplace=True)
     df_report = df.copy()
     try:
         for filter_name in filter_list:
+            df_report[filter_name] = df_report['Compound'].parallel_apply(
                 lambda x: FILTER_MAP[filter_name](x) if not pd.isna(x) else x)
         for score_name in score_list:
+            df_report[score_name] = df_report['Compound'].parallel_apply(
                 lambda x: SCORE_MAP[score_name](x) if not pd.isna(x) else x)
         # pie_chart = None
             def align_score(query):
                 return aligner.align(processed_fasta, query).score
+            alignment_df['score'] = alignment_df['X2'].parallel_apply(align_score)
             row = alignment_df.loc[alignment_df['score'].idxmax()]
             return gr.Dropdown(value=row['protein_family'],
                                info=f"Reason: Best BLASTP score ({row['score']}) "
             infer_df = pd.read_csv(drug_target_pair_upload)
             validate_columns(infer_df, ['X1', 'X2'])
+            infer_df['X1_ERR'] = infer_df['X1'].parallel_apply(
                 validate_seq_str, regex=SMILES_PAT)
             if not infer_df['X1_ERR'].isna().all():
                 raise ValueError(
                     f"Encountered invalid SMILES:\n{infer_df[~infer_df['X1_ERR'].isna()][['X1', 'X1_ERR']]}")
+            infer_df['X2_ERR'] = infer_df['X2'].parallel_apply(
                 validate_seq_str, regex=FASTA_PAT)
             if not infer_df['X2_ERR'].isna().all():
                 raise ValueError(
 if __name__ == "__main__":
     hydra.initialize(version_base="1.3", config_path="configs", job_name="webserver_inference")
+    pandarallel.initialize(progress_bar=True)
     demo.queue(default_concurrency_limit=None, max_size=10).launch(show_api=False)