JosephusCheung commited on
Commit
864c01e
1 Parent(s): 6b017d7

Upload 4 files

Browse files
Files changed (4) hide show
  1. merges.txt +0 -0
  2. special_tokens_map.json +210 -1
  3. tokenizer_config.json +8 -9
  4. vocab.json +0 -0
merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
special_tokens_map.json CHANGED
@@ -1,5 +1,214 @@
1
  {
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
  "bos_token": "<|endoftext|>",
3
  "eos_token": "<|endoftext|>",
4
  "unk_token": "<|endoftext|>"
5
- }
 
1
  {
2
+ "additional_special_tokens": [
3
+ "<|im_start|>",
4
+ "<|im_end|>",
5
+ "<|extra_0|>",
6
+ "<|extra_1|>",
7
+ "<|extra_2|>",
8
+ "<|extra_3|>",
9
+ "<|extra_4|>",
10
+ "<|extra_5|>",
11
+ "<|extra_6|>",
12
+ "<|extra_7|>",
13
+ "<|extra_8|>",
14
+ "<|extra_9|>",
15
+ "<|extra_10|>",
16
+ "<|extra_11|>",
17
+ "<|extra_12|>",
18
+ "<|extra_13|>",
19
+ "<|extra_14|>",
20
+ "<|extra_15|>",
21
+ "<|extra_16|>",
22
+ "<|extra_17|>",
23
+ "<|extra_18|>",
24
+ "<|extra_19|>",
25
+ "<|extra_20|>",
26
+ "<|extra_21|>",
27
+ "<|extra_22|>",
28
+ "<|extra_23|>",
29
+ "<|extra_24|>",
30
+ "<|extra_25|>",
31
+ "<|extra_26|>",
32
+ "<|extra_27|>",
33
+ "<|extra_28|>",
34
+ "<|extra_29|>",
35
+ "<|extra_30|>",
36
+ "<|extra_31|>",
37
+ "<|extra_32|>",
38
+ "<|extra_33|>",
39
+ "<|extra_34|>",
40
+ "<|extra_35|>",
41
+ "<|extra_36|>",
42
+ "<|extra_37|>",
43
+ "<|extra_38|>",
44
+ "<|extra_39|>",
45
+ "<|extra_40|>",
46
+ "<|extra_41|>",
47
+ "<|extra_42|>",
48
+ "<|extra_43|>",
49
+ "<|extra_44|>",
50
+ "<|extra_45|>",
51
+ "<|extra_46|>",
52
+ "<|extra_47|>",
53
+ "<|extra_48|>",
54
+ "<|extra_49|>",
55
+ "<|extra_50|>",
56
+ "<|extra_51|>",
57
+ "<|extra_52|>",
58
+ "<|extra_53|>",
59
+ "<|extra_54|>",
60
+ "<|extra_55|>",
61
+ "<|extra_56|>",
62
+ "<|extra_57|>",
63
+ "<|extra_58|>",
64
+ "<|extra_59|>",
65
+ "<|extra_60|>",
66
+ "<|extra_61|>",
67
+ "<|extra_62|>",
68
+ "<|extra_63|>",
69
+ "<|extra_64|>",
70
+ "<|extra_65|>",
71
+ "<|extra_66|>",
72
+ "<|extra_67|>",
73
+ "<|extra_68|>",
74
+ "<|extra_69|>",
75
+ "<|extra_70|>",
76
+ "<|extra_71|>",
77
+ "<|extra_72|>",
78
+ "<|extra_73|>",
79
+ "<|extra_74|>",
80
+ "<|extra_75|>",
81
+ "<|extra_76|>",
82
+ "<|extra_77|>",
83
+ "<|extra_78|>",
84
+ "<|extra_79|>",
85
+ "<|extra_80|>",
86
+ "<|extra_81|>",
87
+ "<|extra_82|>",
88
+ "<|extra_83|>",
89
+ "<|extra_84|>",
90
+ "<|extra_85|>",
91
+ "<|extra_86|>",
92
+ "<|extra_87|>",
93
+ "<|extra_88|>",
94
+ "<|extra_89|>",
95
+ "<|extra_90|>",
96
+ "<|extra_91|>",
97
+ "<|extra_92|>",
98
+ "<|extra_93|>",
99
+ "<|extra_94|>",
100
+ "<|extra_95|>",
101
+ "<|extra_96|>",
102
+ "<|extra_97|>",
103
+ "<|extra_98|>",
104
+ "<|extra_99|>",
105
+ "<|extra_100|>",
106
+ "<|extra_101|>",
107
+ "<|extra_102|>",
108
+ "<|extra_103|>",
109
+ "<|extra_104|>",
110
+ "<|extra_105|>",
111
+ "<|extra_106|>",
112
+ "<|extra_107|>",
113
+ "<|extra_108|>",
114
+ "<|extra_109|>",
115
+ "<|extra_110|>",
116
+ "<|extra_111|>",
117
+ "<|extra_112|>",
118
+ "<|extra_113|>",
119
+ "<|extra_114|>",
120
+ "<|extra_115|>",
121
+ "<|extra_116|>",
122
+ "<|extra_117|>",
123
+ "<|extra_118|>",
124
+ "<|extra_119|>",
125
+ "<|extra_120|>",
126
+ "<|extra_121|>",
127
+ "<|extra_122|>",
128
+ "<|extra_123|>",
129
+ "<|extra_124|>",
130
+ "<|extra_125|>",
131
+ "<|extra_126|>",
132
+ "<|extra_127|>",
133
+ "<|extra_128|>",
134
+ "<|extra_129|>",
135
+ "<|extra_130|>",
136
+ "<|extra_131|>",
137
+ "<|extra_132|>",
138
+ "<|extra_133|>",
139
+ "<|extra_134|>",
140
+ "<|extra_135|>",
141
+ "<|extra_136|>",
142
+ "<|extra_137|>",
143
+ "<|extra_138|>",
144
+ "<|extra_139|>",
145
+ "<|extra_140|>",
146
+ "<|extra_141|>",
147
+ "<|extra_142|>",
148
+ "<|extra_143|>",
149
+ "<|extra_144|>",
150
+ "<|extra_145|>",
151
+ "<|extra_146|>",
152
+ "<|extra_147|>",
153
+ "<|extra_148|>",
154
+ "<|extra_149|>",
155
+ "<|extra_150|>",
156
+ "<|extra_151|>",
157
+ "<|extra_152|>",
158
+ "<|extra_153|>",
159
+ "<|extra_154|>",
160
+ "<|extra_155|>",
161
+ "<|extra_156|>",
162
+ "<|extra_157|>",
163
+ "<|extra_158|>",
164
+ "<|extra_159|>",
165
+ "<|extra_160|>",
166
+ "<|extra_161|>",
167
+ "<|extra_162|>",
168
+ "<|extra_163|>",
169
+ "<|extra_164|>",
170
+ "<|extra_165|>",
171
+ "<|extra_166|>",
172
+ "<|extra_167|>",
173
+ "<|extra_168|>",
174
+ "<|extra_169|>",
175
+ "<|extra_170|>",
176
+ "<|extra_171|>",
177
+ "<|extra_172|>",
178
+ "<|extra_173|>",
179
+ "<|extra_174|>",
180
+ "<|extra_175|>",
181
+ "<|extra_176|>",
182
+ "<|extra_177|>",
183
+ "<|extra_178|>",
184
+ "<|extra_179|>",
185
+ "<|extra_180|>",
186
+ "<|extra_181|>",
187
+ "<|extra_182|>",
188
+ "<|extra_183|>",
189
+ "<|extra_184|>",
190
+ "<|extra_185|>",
191
+ "<|extra_186|>",
192
+ "<|extra_187|>",
193
+ "<|extra_188|>",
194
+ "<|extra_189|>",
195
+ "<|extra_190|>",
196
+ "<|extra_191|>",
197
+ "<|extra_192|>",
198
+ "<|extra_193|>",
199
+ "<|extra_194|>",
200
+ "<|extra_195|>",
201
+ "<|extra_196|>",
202
+ "<|extra_197|>",
203
+ "<|extra_198|>",
204
+ "<|extra_199|>",
205
+ "<|extra_200|>",
206
+ "<|extra_201|>",
207
+ "<|extra_202|>",
208
+ "<|extra_203|>",
209
+ "<|extra_204|>"
210
+ ],
211
  "bos_token": "<|endoftext|>",
212
  "eos_token": "<|endoftext|>",
213
  "unk_token": "<|endoftext|>"
214
+ }
tokenizer_config.json CHANGED
@@ -1,10 +1,9 @@
1
  {
2
- "model_max_length": 999999999999999999,
3
- "tokenizer_class": "QWenTokenizer",
4
- "auto_map": {
5
- "AutoTokenizer": [
6
- "tokenization_qwen.QWenTokenizer",
7
- null
8
- ]
9
- }
10
- }
 
1
  {
2
+ "add_prefix_space": false,
3
+ "bos_token": "<|endoftext|>",
4
+ "tokenizer_class": "GPT2Tokenizer",
5
+ "clean_up_tokenization_spaces": true,
6
+ "eos_token": "<|endoftext|>",
7
+ "model_max_length": 1000000000000000019884624838656,
8
+ "unk_token": "<|endoftext|>"
9
+ }
 
vocab.json ADDED
The diff for this file is too large to render. See raw diff