zirui3 commited on
Commit
f2f9e4d
1 Parent(s): 3315142

Upload tokenizer_config.json

Browse files
Files changed (1) hide show
  1. tokenizer_config.json +121 -0
tokenizer_config.json ADDED
@@ -0,0 +1,121 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<s>",
4
+ "</s>",
5
+ "<|usr|>",
6
+ "<|pad|>",
7
+ "<|sys|>",
8
+ "<|unk|>",
9
+ "<|sep|>",
10
+ "<|mask|>",
11
+ "<|d|>",
12
+ "<|/d|>",
13
+ "<|unused0|>",
14
+ "<|unused1|>",
15
+ "<|unused2|>",
16
+ "<|unused3|>",
17
+ "<|unused4|>",
18
+ "<|unused5|>",
19
+ "<|unused6|>",
20
+ "<|unused7|>",
21
+ "<|unused8|>",
22
+ "<|unused9|>",
23
+ "<|unused10|>",
24
+ "<|unused11|>",
25
+ "<|unused12|>",
26
+ "<|unused13|>",
27
+ "<|unused14|>",
28
+ "<|unused15|>",
29
+ "<|unused16|>",
30
+ "<|unused17|>",
31
+ "<|unused18|>",
32
+ "<|unused19|>",
33
+ "<|unused20|>",
34
+ "<|unused21|>",
35
+ "<|unused22|>",
36
+ "<|unused23|>",
37
+ "<|unused24|>",
38
+ "<|unused25|>",
39
+ "<|unused26|>",
40
+ "<|unused27|>",
41
+ "<|unused28|>",
42
+ "<|unused29|>",
43
+ "<|unused30|>",
44
+ "<|unused31|>",
45
+ "<|unused32|>",
46
+ "<|unused33|>",
47
+ "<|unused34|>",
48
+ "<|unused35|>",
49
+ "<|unused36|>",
50
+ "<|unused37|>",
51
+ "<|unused38|>",
52
+ "<|unused39|>",
53
+ "<|unused40|>",
54
+ "<|unused41|>",
55
+ "<|unused42|>",
56
+ "<|unused43|>",
57
+ "<|unused44|>",
58
+ "<|unused45|>",
59
+ "<|unused46|>",
60
+ "<|unused47|>",
61
+ "<|unused48|>",
62
+ "<|unused49|>",
63
+ "<|unused50|>",
64
+ "<|unused51|>",
65
+ "<|unused52|>",
66
+ "<|unused53|>",
67
+ "<|unused54|>",
68
+ "<|unused55|>",
69
+ "<|unused56|>",
70
+ "<|unused57|>",
71
+ "<|unused58|>",
72
+ "<|unused59|>",
73
+ "<|unused60|>",
74
+ "<|unused61|>",
75
+ "<|unused62|>",
76
+ "<|unused63|>",
77
+ "<|unused64|>",
78
+ "<|unused65|>",
79
+ "<|unused66|>",
80
+ "<|unused67|>",
81
+ "<|unused68|>",
82
+ "<|unused69|>",
83
+ "<|unused70|>",
84
+ "<|unused71|>",
85
+ "<|unused72|>",
86
+ "<|unused73|>",
87
+ "<|unused74|>",
88
+ "<|unused75|>",
89
+ "<|unused76|>",
90
+ "<|unused77|>",
91
+ "<|unused78|>",
92
+ "<|unused79|>",
93
+ "<|unused80|>",
94
+ "<|unused81|>",
95
+ "<|unused82|>",
96
+ "<|unused83|>",
97
+ "<|unused84|>",
98
+ "<|unused85|>",
99
+ "<|unused86|>",
100
+ "<|unused87|>",
101
+ "<|unused88|>",
102
+ "<|unused89|>",
103
+ "<|unused90|>",
104
+ "<|unused91|>",
105
+ "<|unused92|>",
106
+ "<|unused93|>",
107
+ "<|unused94|>",
108
+ "<|unused95|>",
109
+ "<|unused96|>",
110
+ "<|unused97|>",
111
+ "<|unused98|>",
112
+ "<|unused99|>"
113
+ ],
114
+ "bos_token": "<s>",
115
+ "clean_up_tokenization_spaces": true,
116
+ "eos_token": "<s>",
117
+ "model_max_length": 1000000000000000019884624838656,
118
+ "tokenizer_class": "PreTrainedTokenizerFast",
119
+ "unk_token": "<s>",
120
+ "vocab_size": 102400
121
+ }