flax-community
/

roberta-base-thai

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

sakares commited on Jul 15, 2021

Commit

89c14b0

•

1 Parent(s): a615d86

train with 10K batch_size

Files changed (1) hide show

train_tokenizer.py +1 -1

train_tokenizer.py CHANGED Viewed

@@ -24,7 +24,7 @@ def th_tokenize(text):
     return result
-def batch_iterator(batch_size=1000):
     for i in range(0, len(raw_dataset), batch_size):
         yield [th_tokenize(text) for text in raw_dataset[i : i + batch_size]["text"]]

     return result
+def batch_iterator(batch_size=10000):
     for i in range(0, len(raw_dataset), batch_size):
         yield [th_tokenize(text) for text in raw_dataset[i : i + batch_size]["text"]]