ptdat
/

vn-smartphone-absa

Text Classification

feature-extraction

Model card Files Files and versions Community

ptdat commited on Jun 26, 2024

Commit

92a1809

·

verified ·

1 Parent(s): 2a311ca

Upload tokenizer

Files changed (2) hide show

tokenization_vnsabsa.py +7 -2
tokenizer_config.json +6 -0

tokenization_vnsabsa.py CHANGED Viewed

@@ -8,12 +8,17 @@ import regex as re
 from typing import Tuple, Optional
 import shutil
 import os
 class VnSmartphoneAbsaTokenizer(PreTrainedTokenizer):
     def __init__(
         self,
-        vocab_file="vocab.txt",
-        merge_file="merge.txt",
         bos_token="<s>",
         eos_token="</s>",
         sep_token="</s>",

 from typing import Tuple, Optional
 import shutil
 import os
+import requests
 class VnSmartphoneAbsaTokenizer(PreTrainedTokenizer):
+    pretrained_vocab_files_map = {
+        "vocab_file": "https://huggingface.co/ptdat/vn-smartphone-absa/resolve/main/vocab.txt",
+        "merge_file": "https://huggingface.co/ptdat/vn-smartphone-absa/resolve/main/merge.txt"
+    }
     def __init__(
         self,
+        vocab_file,
+        merge_file,
         bos_token="<s>",
         eos_token="</s>",
         sep_token="</s>",

tokenizer_config.json CHANGED Viewed

@@ -41,6 +41,12 @@
       "special": true
     }
   },
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": true,
   "cls_token": "<s>",

       "special": true
     }
   },
+  "auto_map": {
+    "AutoTokenizer": [
+      "tokenization_vnsabsa.VnSmartphoneAbsaTokenizer",
+      null
+    ]
+  },
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": true,
   "cls_token": "<s>",