paccmann

Running

App Files Files Community

jannisborn commited on Feb 22, 2023

Commit

30c86cf

unverified ·

1 Parent(s): 78993d6

fix: Bugfix in SMILES canonicalization

Browse files

Files changed (4) hide show

.gitignore +2 -1
artifacts/model.json +70 -1
configuration.py +2 -1
requirements.txt +1 -1

.gitignore CHANGED Viewed

	@@ -1 +1,2 @@
1	- __pycache__/


1	+ __pycache__/
2	+ .DS_Store

artifacts/model.json CHANGED Viewed

	@@ -1 +1,70 @@
1	- {"drug_sensitivity_min_max": true, "gene_expression_min_max": false, "gene_expression_standardize": false, "augment_smiles": false, "canonical": false, "kekulize": false, "all_bonds_explicit": false, "all_hs_explicit": false, "randomize": false, "remove_bonddir": false, "remove_chirality": false, "selfies": false, "smiles_start_stop_token": true, "number_of_genes": 2128, "smiles_padding_length": 465, "stacked_dense_hidden_sizes": [512], "activation_fn": "relu", "dropout": 0.4, "batch_norm": true, "filters": [64, 64, 64], "multiheads": [4, 4, 4, 4], "smiles_embedding_size": 16, "kernel_sizes": [[3, 16], [5, 16], [11, 16]], "smiles_attention_size": 64, "embed_scale_grad": false, "final_activation": true, "gene_to_dense": false, "batch_size": 2048, "dataset_device": "cuda", "lr": 0.001, "optimizer": "adam", "loss_fn": "mse", "epochs": 200, "save_model": 25, "smiles_vocabulary_size": 108, "drug_sensitivity_processing_parameters": {"processing": "min_max", "parameters": {"min": -11.998083341987641, "max": 12.359055999999999}}, "gene_expression_processing_parameters": {}, "number_of_parameters": 7217361}

+{
+    "drug_sensitivity_min_max": true,
+    "gene_expression_min_max": false,
+    "gene_expression_standardize": false,
+    "augment_smiles": false,
+    "canonical": false,
+    "kekulize": false,
+    "all_bonds_explicit": false,
+    "all_hs_explicit": false,
+    "randomize": false,
+    "remove_bonddir": false,
+    "remove_chirality": false,
+    "selfies": false,
+    "smiles_start_stop_token": true,
+    "number_of_genes": 2128,
+    "smiles_padding_length": 465,
+    "stacked_dense_hidden_sizes": [
+        512
+    ],
+    "activation_fn": "relu",
+    "dropout": 0.4,
+    "batch_norm": true,
+    "filters": [
+        64,
+        64,
+        64
+    ],
+    "multiheads": [
+        4,
+        4,
+        4,
+        4
+    ],
+    "smiles_embedding_size": 16,
+    "kernel_sizes": [
+        [
+            3,
+            16
+        ],
+        [
+            5,
+            16
+        ],
+        [
+            11,
+            16
+        ]
+    ],
+    "smiles_attention_size": 64,
+    "embed_scale_grad": false,
+    "final_activation": true,
+    "gene_to_dense": false,
+    "batch_size": 2048,
+    "dataset_device": "cuda",
+    "lr": 0.001,
+    "optimizer": "adam",
+    "loss_fn": "mse",
+    "epochs": 200,
+    "save_model": 25,
+    "smiles_vocabulary_size": 108,
+    "drug_sensitivity_processing_parameters": {
+        "processing": "min_max",
+        "parameters": {
+            "min": -11.998083341987641,
+            "max": 12.359055999999999
+        }
+    },
+    "gene_expression_processing_parameters": {},
+    "number_of_parameters": 7217361
+}

configuration.py CHANGED Viewed

@@ -4,7 +4,7 @@ import json
 import dill
 import pandas as pd
 from pytoda.transforms import Compose
-from pytoda.smiles.transforms import SMILESToTokenIndexes, LeftPadding
 from cos import ensure_filepath_from_uri, COS_BUCKET_URI
 # model files
@@ -41,6 +41,7 @@ with open(GENE_EXPRESSION_STANDARDIZATION_URI, "rb") as fp:
     GENE_STANDARDIZATION_PARAMETERS = dill.load(fp)
 # smiles transformations
 SMILES_TRANSFORMS = [
     SMILESToTokenIndexes(smiles_language=SMILES_LANGUAGE),
     LeftPadding(padding_length=MAX_LENGTH, padding_index=SMILES_LANGUAGE.padding_index),
 ]

 import dill
 import pandas as pd
 from pytoda.transforms import Compose
+from pytoda.smiles.transforms import SMILESToTokenIndexes, LeftPadding, Canonicalization
 from cos import ensure_filepath_from_uri, COS_BUCKET_URI
 # model files
     GENE_STANDARDIZATION_PARAMETERS = dill.load(fp)
 # smiles transformations
 SMILES_TRANSFORMS = [
+    Canonicalization(),
     SMILESToTokenIndexes(smiles_language=SMILES_LANGUAGE),
     LeftPadding(padding_length=MAX_LENGTH, padding_index=SMILES_LANGUAGE.padding_index),
 ]

requirements.txt CHANGED Viewed

@@ -1,5 +1,5 @@
 rdkit-pypi
-pytoda @git+https://git@github.com/PaccMann/paccmann_datasets@0.0.3
 paccmann_predictor @ git+https://github.com/PaccMann/paccmann_predictor@0.0.1.1
 tqdm
 connexion==2.6.0

 rdkit-pypi
+pytoda @ git+https://git@github.com/PaccMann/paccmann_datasets@0.0.3
 paccmann_predictor @ git+https://github.com/PaccMann/paccmann_predictor@0.0.1.1
 tqdm
 connexion==2.6.0