AlumiK
/

LingLong-317M-Chat

Text Generation

Model card Files Files and versions Community

AlumiK commited on May 16, 2024

Commit

30eca34

·

1 Parent(s): aed054e

update tokenizer

Files changed (2) hide show

tokenization_linglong_fast.py +2 -1
tokenizer.json +7 -3

tokenization_linglong_fast.py CHANGED Viewed

@@ -74,8 +74,9 @@ class LingLongTokenizerFast(PreTrainedTokenizerFast):
                 )
             backend_tokenizer.normalizer = normalizers.Sequence(normalizer_sequence)
             backend_tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
-                pre_tokenizers.WhitespaceSplit(),
                 pre_tokenizers.Digits(individual_digits=True),
             ])
         super().__init__(
             tokenizer_file=tokenizer_file,

                 )
             backend_tokenizer.normalizer = normalizers.Sequence(normalizer_sequence)
             backend_tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
                 pre_tokenizers.Digits(individual_digits=True),
+                pre_tokenizers.Punctuation(),
+                pre_tokenizers.WhitespaceSplit(),
             ])
         super().__init__(
             tokenizer_file=tokenizer_file,

tokenizer.json CHANGED Viewed

@@ -179,12 +179,16 @@
   "pre_tokenizer": {
     "type": "Sequence",
     "pretokenizers": [
-      {
-        "type": "WhitespaceSplit"
-      },
       {
         "type": "Digits",
         "individual_digits": true
       }
     ]
   },

   "pre_tokenizer": {
     "type": "Sequence",
     "pretokenizers": [
       {
         "type": "Digits",
         "individual_digits": true
+      },
+      {
+        "type": "Punctuation",
+        "behavior": "Isolated"
+      },
+      {
+        "type": "WhitespaceSplit"
       }
     ]
   },