lhallee commited on
Commit
3ab27b4
1 Parent(s): 40df17c

Upload tokenizer

Browse files
Files changed (3) hide show
  1. special_tokens_map.json +7 -0
  2. tokenizer_config.json +16 -0
  3. vocab.txt +69 -0
special_tokens_map.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": "[CLS]",
3
+ "mask_token": "[MASK]",
4
+ "pad_token": "[PAD]",
5
+ "sep_token": "[SEP]",
6
+ "unk_token": "[UNK]"
7
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "clean_up_tokenization_spaces": true,
3
+ "cls_token": "[CLS]",
4
+ "do_basic_tokenize": true,
5
+ "do_lower_case": false,
6
+ "full_tokenizer_file": null,
7
+ "mask_token": "[MASK]",
8
+ "model_max_length": 1000000000000000019884624838656,
9
+ "never_split": null,
10
+ "pad_token": "[PAD]",
11
+ "sep_token": "[SEP]",
12
+ "strip_accents": null,
13
+ "tokenize_chinese_chars": true,
14
+ "tokenizer_class": "BertTokenizer",
15
+ "unk_token": "[UNK]"
16
+ }
vocab.txt ADDED
@@ -0,0 +1,69 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [PAD]
2
+ [UNK]
3
+ [CLS]
4
+ [SEP]
5
+ [MASK]
6
+ a
7
+ A
8
+ @
9
+ b
10
+ B
11
+ #
12
+ $
13
+ %
14
+ r
15
+ R
16
+ n
17
+ N
18
+ d
19
+ D
20
+ c
21
+ C
22
+ e
23
+ E
24
+ q
25
+ Q
26
+ ^
27
+ G
28
+ &
29
+ g
30
+ h
31
+ H
32
+ i
33
+ I
34
+ j
35
+ +
36
+ M
37
+ m
38
+ l
39
+ J
40
+ L
41
+ k
42
+ K
43
+ (
44
+ f
45
+ F
46
+ p
47
+ P
48
+ o
49
+ O
50
+ =
51
+ s
52
+ z
53
+ Z
54
+ w
55
+ S
56
+ X
57
+ T
58
+ t
59
+ x
60
+ W
61
+ y
62
+ Y
63
+ u
64
+ v
65
+ U
66
+ V
67
+ ]
68
+ }
69
+ )