Spaces:

saicharan2804
/

SmilesPeTokenizer

Runtime error

saicharan2804 commited on Feb 27, 2024

Commit

f23bcf0

1 Parent(s): 1fc0c38

Added token IDs

Files changed (3) hide show

SmilesPeTokenizer.py CHANGED Viewed

@@ -1,12 +1,16 @@
-import codecs
-from SmilesPE.tokenizer import *
-def smilespe_tokenizer(smiles_string):
-    spe_vob = codecs.open('chembl_smiles_tokenizer30000.txt')
-    spe = SPE_Tokenizer(spe_vob)
-    tokenized = spe.tokenize(smiles_string)
-    return tokenized

+from tokenizers import Tokenizer
+def bpe_tokenizer(smiles_string):
+    # Load the tokenizer from the saved file
+    tokenizer = Tokenizer.from_file("chembl_bpe_tokenizer.json")
+    # Tokenize the SMILES string
+    encoded_output = tokenizer.encode(smiles_string)
+    # To get the tokenized output as text
+    tokens_text = encoded_output.tokens
+    # To get the corresponding token IDs
+    token_ids = encoded_output.ids
+    return tokens_text, token_ids

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ iface = gr.Interface(
     inputs=[
         gr.Textbox(label="SMILES"),
     ],
-    outputs="text"
 )
 iface.launch()

     inputs=[
         gr.Textbox(label="SMILES"),
     ],
+    outputs=["text", "text"]
 )
 iface.launch()

chembl_smiles_tokenizer.txt ADDED Viewed

File without changes