Spaces:

GT4SD
/

moler

Running

jannisborn commited on Mar 9, 2023

Commit

f1e36b5

unverified ·

1 Parent(s): 75a6229

feat: moler updates

Files changed (5) hide show

app.py CHANGED Viewed

@@ -17,7 +17,9 @@ TITLE = "MoLeR"
 def run_inference(
     algorithm_version: str,
     scaffolds: str,
     beam_size: int,
     number_of_samples: int,
     seed: int,
 ):
@@ -25,15 +27,18 @@ def run_inference(
         algorithm_version=algorithm_version,
         scaffolds=scaffolds,
         beam_size=beam_size,
-        num_samples=4,
         seed=seed,
         num_workers=1,
     )
     model = MoLeR(configuration=config)
     samples = list(model.sample(number_of_samples))
-    seed_mols = [] if scaffolds == "" else scaffolds.split(".")
-    return draw_grid_generate(seed_mols, samples)
 if __name__ == "__main__":
@@ -67,7 +72,13 @@ if __name__ == "__main__":
                 placeholder="CC(C#C)N(C)C(=O)NC1=CC=C(Cl)C=C1",
                 lines=1,
             ),
-            gr.Slider(minimum=1, maximum=5, value=1, step=1, label="Beam_size"),
             gr.Slider(
                 minimum=1, maximum=50, value=10, label="Number of samples", step=1
             ),

 def run_inference(
     algorithm_version: str,
     scaffolds: str,
+    seed_smiles: str,
     beam_size: int,
+    sigma: float,
     number_of_samples: int,
     seed: int,
 ):
         algorithm_version=algorithm_version,
         scaffolds=scaffolds,
         beam_size=beam_size,
+        num_samples=32,
         seed=seed,
         num_workers=1,
+        seed_smiles=seed_smiles,
+        sigma=sigma,
     )
     model = MoLeR(configuration=config)
     samples = list(model.sample(number_of_samples))
+    scaffold_list = [] if scaffolds == "" else scaffolds.split(".")
+    seed_list = [] if seed_smiles == "" else seed_smiles.split(".")
+    return draw_grid_generate(seed_list, scaffold_list, samples)
 if __name__ == "__main__":
                 placeholder="CC(C#C)N(C)C(=O)NC1=CC=C(Cl)C=C1",
                 lines=1,
             ),
+            gr.Textbox(
+                label="Seed SMILES",
+                placeholder="O=C1C2=CC=C(C3=CC=CC=C3)C=C=C2OC2=CC=CC=C12",
+                lines=1,
+            ),
+            gr.Slider(minimum=1, maximum=5, value=1, step=1, label="Beams"),
+            gr.Slider(minimum=0.0, maximum=3.0, value=0.01, label="Sigma"),
             gr.Slider(
                 minimum=1, maximum=50, value=10, label="Number of samples", step=1
             ),

model_cards/article.md CHANGED Viewed

@@ -2,12 +2,19 @@
 **Algorithm Version**: Which model checkpoint to use (trained on different datasets).
-**Scaffolds**: One or multiple scaffolds (or seed molecules), provided as '.'-separated SMILES. If empty, no scaffolds are used.
 **Number of samples**: How many samples should be generated (between 1 and 50).
 **Beam size**: Beam size used in beam search decoding (the higher the slower but better).
 **Seed**: The random seed used for initialization.

 **Algorithm Version**: Which model checkpoint to use (trained on different datasets).
+**Scaffolds**: One or multiple scaffolds, provided as '.'-separated SMILES. If empty, no scaffolds are used. Note that this is a hard-constraint,
+i.e., the scaffold will certainly be present in the generated molecule. If multiple scaffolds are given, they are paired with the seed SMILES
+(if applicable) and every molecule will be guaranteed to contain exactly one scaffold.
+**Seed SMILES**: One or multiple seed molecules, provided as '.'-separated SMILES. If empty, no scaffolds are used.
+There's no guarantee for a seed SMILES (or a substructure of it) to be present in the generated molecule as it's merely used for decoder initialization.
 **Number of samples**: How many samples should be generated (between 1 and 50).
 **Beam size**: Beam size used in beam search decoding (the higher the slower but better).
+**Sigma**: Variance of the Gaussian noise that is added to the latent code (before passing to the decoder).
 **Seed**: The random seed used for initialization.

model_cards/examples.csv CHANGED Viewed

@@ -1,5 +1,7 @@
-v0,,1,4,0
-v0,CC(=O)NC1=NC2=CC(OCC3=CC=CN(CC4=CC=C(Cl)C=C4)C3=O)=CC=C2N1,1,10,0
-v0,C12C=CC=NN1C(C#CC1=C(C)C=CC3C(NC4=CC(C(F)(F)F)=CC=C4)=NOC1=3)=CN=2.CCO,3,5,5

+v0,,,1,0.0,4,0
+v0,CC(=O)NC1=NC2=CC(OCC3=CC=CN(CC4=CC=C(Cl)C=C4)C3=O)=CC=C2N1,,1,0.0,10,1
+v0,CC(=O)NC1=NC2=CC(OCC3=CC=CN(CC4=CC=C(Cl)C=C4)C3=O)=CC=C2N1,,1,0.3,10,2
+v0,,CC(=O)NC1=NC2=CC(OCC3=CC=CN(CC4=CC=C(Cl)C=C4)C3=O)=CC=C2N1,1,0.2,10,3
+v0,,C12C=CC=NN1C(C#CC1=C(C)C=CC3C(NC4=CC(C(F)(F)F)=CC=C4)=NOC1=3)=CN=2.CCO,3,0.2,5,5
+v0,,CC(=O)NC1=NC2=CC(OCC3=CC=CN(CC4=CC=C(Cl)C=C4)C3=O)=CC=C2N1,1,0.5,10,9
+v0,CC(=O)NC1=NC2=CC(OCC3=CC=CN(CC4=CC=C(Cl)C=C4)C3=O)=CC=C2N1,c1ccccc1,1,0.2,10,10

requirements.txt CHANGED Viewed

@@ -8,7 +8,7 @@ torch-sparse
 torch-geometric
 torchvision==0.13.1
 torchaudio==0.12.1
-gt4sd>=1.0.0
 molgx>=0.22.0a1
 diffusers==0.6.0
 molecule_generation

 torch-geometric
 torchvision==0.13.1
 torchaudio==0.12.1
+gt4sd>=1.1.12
 molgx>=0.22.0a1
 diffusers==0.6.0
 molecule_generation

utils.py CHANGED Viewed

@@ -15,8 +15,9 @@ logger.addHandler(logging.NullHandler())
 def draw_grid_generate(
     seeds: List[str],
     samples: List[str],
-    n_cols: int = 3,
     size=(140, 200),
 ) -> str:
     """
@@ -34,8 +35,9 @@ def draw_grid_generate(
     result = defaultdict(list)
     result.update(
         {
-            "SMILES": seeds + samples,
             "Name": [f"Seed_{i}" for i in range(len(seeds))]
             + [f"Generated_{i}" for i in range(len(samples))],
         },
     )

 def draw_grid_generate(
     seeds: List[str],
+    scaffolds: List[str],
     samples: List[str],
+    n_cols: int = 5,
     size=(140, 200),
 ) -> str:
     """
     result = defaultdict(list)
     result.update(
         {
+            "SMILES": seeds + scaffolds + samples,
             "Name": [f"Seed_{i}" for i in range(len(seeds))]
+            + [f"Scaffold_{i}" for i in range(len(scaffolds))]
             + [f"Generated_{i}" for i in range(len(samples))],
         },
     )