THUDM
/

LongCite-llama3.1-8b

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

NeoZ123 commited on Oct 15, 2024

Commit

a084b7a

·

verified ·

1 Parent(s): eacb565

Update tiktoken_tokenizer.py

Files changed (1) hide show

tiktoken_tokenizer.py +1 -2

tiktoken_tokenizer.py CHANGED Viewed

@@ -55,8 +55,7 @@ class BaseTokenizer(PreTrainedTokenizer):
 class TikTokenizer(BaseTokenizer):
     @staticmethod
     def from_pretrained(path, *inputs, **kwargs):
-        # return TikTokenizer(vocab_file=os.path.join(path, "tokenizer.tiktoken"))
-        return TikTokenizer(vocab_file="tokenizer.tiktoken")
     def __init__(self, vocab_file=None):
         pat_str = "(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\\r\\n\\p{L}\\p{N}]?\\p{L}+|\\p{N}{1,3}| ?[^\\s\\p{L}\\p{N}]+[\\r\\n]*|\\s*[\\r\\n]+|\\s+(?!\\S)|\\s+"

 class TikTokenizer(BaseTokenizer):
     @staticmethod
     def from_pretrained(path, *inputs, **kwargs):
+        return TikTokenizer(vocab_file=os.path.join(path, "tokenizer.tiktoken"))
     def __init__(self, vocab_file=None):
         pat_str = "(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\\r\\n\\p{L}\\p{N}]?\\p{L}+|\\p{N}{1,3}| ?[^\\s\\p{L}\\p{N}]+[\\r\\n]*|\\s*[\\r\\n]+|\\s+(?!\\S)|\\s+"