Spaces:

DimaKoshman
/

ML2TransformerApp

Runtime error

dkoshman commited on Apr 19, 2022

Commit

41c9661

•

1 Parent(s): e33424f

two line change

Files changed (1) hide show

data_preprocessing.py CHANGED Viewed

@@ -88,7 +88,7 @@ class RandomTransformImage(object):
         return image
-def generate_tex_tokenizer(dataset):
     """Returns a tokeniser trained on tex strings from dataset"""
     tokenizer = tokenizers.Tokenizer(tokenizers.models.BPE(unk_token="[UNK]"))
@@ -97,7 +97,7 @@ def generate_tex_tokenizer(dataset):
         special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]
     )
     tokenizer.pre_tokenizer = tokenizers.pre_tokenizers.Whitespace()
-    tokenizer.train_from_iterator((item['tex'] for item in dataset), trainer=tokenizer_trainer)
     tokenizer.post_processor = tokenizers.processors.TemplateProcessing(
         single="$A [SEP]",
         special_tokens=[("[SEP]", tokenizer.token_to_id("[SEP]"))]

         return image
+def generate_tex_tokenizer(texs):
     """Returns a tokeniser trained on tex strings from dataset"""
     tokenizer = tokenizers.Tokenizer(tokenizers.models.BPE(unk_token="[UNK]"))
         special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]
     )
     tokenizer.pre_tokenizer = tokenizers.pre_tokenizers.Whitespace()
+    tokenizer.train_from_iterator(texs, trainer=tokenizer_trainer)
     tokenizer.post_processor = tokenizers.processors.TemplateProcessing(
         single="$A [SEP]",
         special_tokens=[("[SEP]", tokenizer.token_to_id("[SEP]"))]