Narsil HF staff commited on
Commit
94afb37
1 Parent(s): a6a4ad1

Adding tokenizer.

Browse files
Files changed (2) hide show
  1. config.json +6 -0
  2. tokenizer.json +305 -0
config.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "vocab_size": 258,
3
+ "model_type": "albert",
4
+ "bos_token_id": 256,
5
+ "eos_token_id": 257
6
+ }
tokenizer.json ADDED
@@ -0,0 +1,305 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "version": "1.0",
3
+ "truncation": null,
4
+ "padding": null,
5
+ "added_tokens": [
6
+ {
7
+ "id": 256,
8
+ "special": true,
9
+ "content": "<bos>",
10
+ "single_word": false,
11
+ "lstrip": false,
12
+ "rstrip": false,
13
+ "normalized": false
14
+ },
15
+ {
16
+ "id": 257,
17
+ "special": true,
18
+ "content": "<eos>",
19
+ "single_word": false,
20
+ "lstrip": false,
21
+ "rstrip": false,
22
+ "normalized": false
23
+ }
24
+ ],
25
+ "normalizer": null,
26
+ "pre_tokenizer": null,
27
+ "post_processor": {
28
+ "type": "TemplateProcessing",
29
+ "single": [
30
+ { "SpecialToken": { "id": "<bos>", "type_id": 0 } },
31
+ { "Sequence": { "id": "A", "type_id": 0 } },
32
+ { "SpecialToken": { "id": "<eos>", "type_id": 0 } }
33
+ ],
34
+ "pair": [
35
+ { "Sequence": { "id": "A", "type_id": 0 } },
36
+ { "Sequence": { "id": "B", "type_id": 1 } }
37
+ ],
38
+ "special_tokens": {
39
+ "<bos>": { "id": "<bos>", "ids": [256], "tokens": ["<bos>"] },
40
+ "<eos>": { "id": "<eos>", "ids": [257], "tokens": ["<eos>"] }
41
+ }
42
+ },
43
+ "decoder": null,
44
+ "model": {
45
+ "unk_id": null,
46
+ "vocab": [
47
+ ["\u0000", 0.0],
48
+ ["\u0001", 1.0],
49
+ ["\u0002", 2.0],
50
+ ["\u0003", 3.0],
51
+ ["\u0004", 4.0],
52
+ ["\u0005", 5.0],
53
+ ["\u0006", 6.0],
54
+ ["\u0007", 7.0],
55
+ ["\b", 8.0],
56
+ ["\t", 9.0],
57
+ ["\n", 10.0],
58
+ ["\u000b", 11.0],
59
+ ["\f", 12.0],
60
+ ["\r", 13.0],
61
+ ["\u000e", 14.0],
62
+ ["\u000f", 15.0],
63
+ ["\u0010", 16.0],
64
+ ["\u0011", 17.0],
65
+ ["\u0012", 18.0],
66
+ ["\u0013", 19.0],
67
+ ["\u0014", 20.0],
68
+ ["\u0015", 21.0],
69
+ ["\u0016", 22.0],
70
+ ["\u0017", 23.0],
71
+ ["\u0018", 24.0],
72
+ ["\u0019", 25.0],
73
+ ["\u001a", 26.0],
74
+ ["\u001b", 27.0],
75
+ ["\u001c", 28.0],
76
+ ["\u001d", 29.0],
77
+ ["\u001e", 30.0],
78
+ ["\u001f", 31.0],
79
+ [" ", 32.0],
80
+ ["!", 33.0],
81
+ ["\"", 34.0],
82
+ ["#", 35.0],
83
+ ["$", 36.0],
84
+ ["%", 37.0],
85
+ ["&", 38.0],
86
+ ["'", 39.0],
87
+ ["(", 40.0],
88
+ [")", 41.0],
89
+ ["*", 42.0],
90
+ ["+", 43.0],
91
+ [",", 44.0],
92
+ ["-", 45.0],
93
+ [".", 46.0],
94
+ ["/", 47.0],
95
+ ["0", 48.0],
96
+ ["1", 49.0],
97
+ ["2", 50.0],
98
+ ["3", 51.0],
99
+ ["4", 52.0],
100
+ ["5", 53.0],
101
+ ["6", 54.0],
102
+ ["7", 55.0],
103
+ ["8", 56.0],
104
+ ["9", 57.0],
105
+ [":", 58.0],
106
+ [";", 59.0],
107
+ ["<", 60.0],
108
+ ["=", 61.0],
109
+ [">", 62.0],
110
+ ["?", 63.0],
111
+ ["@", 64.0],
112
+ ["A", 65.0],
113
+ ["B", 66.0],
114
+ ["C", 67.0],
115
+ ["D", 68.0],
116
+ ["E", 69.0],
117
+ ["F", 70.0],
118
+ ["G", 71.0],
119
+ ["H", 72.0],
120
+ ["I", 73.0],
121
+ ["J", 74.0],
122
+ ["K", 75.0],
123
+ ["L", 76.0],
124
+ ["M", 77.0],
125
+ ["N", 78.0],
126
+ ["O", 79.0],
127
+ ["P", 80.0],
128
+ ["Q", 81.0],
129
+ ["R", 82.0],
130
+ ["S", 83.0],
131
+ ["T", 84.0],
132
+ ["U", 85.0],
133
+ ["V", 86.0],
134
+ ["W", 87.0],
135
+ ["X", 88.0],
136
+ ["Y", 89.0],
137
+ ["Z", 90.0],
138
+ ["[", 91.0],
139
+ ["\\", 92.0],
140
+ ["]", 93.0],
141
+ ["^", 94.0],
142
+ ["_", 95.0],
143
+ ["`", 96.0],
144
+ ["a", 97.0],
145
+ ["b", 98.0],
146
+ ["c", 99.0],
147
+ ["d", 100.0],
148
+ ["e", 101.0],
149
+ ["f", 102.0],
150
+ ["g", 103.0],
151
+ ["h", 104.0],
152
+ ["i", 105.0],
153
+ ["j", 106.0],
154
+ ["k", 107.0],
155
+ ["l", 108.0],
156
+ ["m", 109.0],
157
+ ["n", 110.0],
158
+ ["o", 111.0],
159
+ ["p", 112.0],
160
+ ["q", 113.0],
161
+ ["r", 114.0],
162
+ ["s", 115.0],
163
+ ["t", 116.0],
164
+ ["u", 117.0],
165
+ ["v", 118.0],
166
+ ["w", 119.0],
167
+ ["x", 120.0],
168
+ ["y", 121.0],
169
+ ["z", 122.0],
170
+ ["{", 123.0],
171
+ ["|", 124.0],
172
+ ["}", 125.0],
173
+ ["~", 126.0],
174
+ ["", 127.0],
175
+ ["€", 128.0],
176
+ ["", 129.0],
177
+ ["‚", 130.0],
178
+ ["ƒ", 131.0],
179
+ ["„", 132.0],
180
+ ["…", 133.0],
181
+ ["†", 134.0],
182
+ ["‡", 135.0],
183
+ ["ˆ", 136.0],
184
+ ["��", 137.0],
185
+ ["Š", 138.0],
186
+ ["‹", 139.0],
187
+ ["Œ", 140.0],
188
+ ["", 141.0],
189
+ ["Ž", 142.0],
190
+ ["", 143.0],
191
+ ["", 144.0],
192
+ ["‘", 145.0],
193
+ ["’", 146.0],
194
+ ["“", 147.0],
195
+ ["”", 148.0],
196
+ ["•", 149.0],
197
+ ["–", 150.0],
198
+ ["—", 151.0],
199
+ ["˜", 152.0],
200
+ ["™", 153.0],
201
+ ["š", 154.0],
202
+ ["›", 155.0],
203
+ ["œ", 156.0],
204
+ ["", 157.0],
205
+ ["ž", 158.0],
206
+ ["Ÿ", 159.0],
207
+ [" ", 160.0],
208
+ ["¡", 161.0],
209
+ ["¢", 162.0],
210
+ ["£", 163.0],
211
+ ["¤", 164.0],
212
+ ["¥", 165.0],
213
+ ["¦", 166.0],
214
+ ["§", 167.0],
215
+ ["¨", 168.0],
216
+ ["©", 169.0],
217
+ ["ª", 170.0],
218
+ ["«", 171.0],
219
+ ["¬", 172.0],
220
+ ["­", 173.0],
221
+ ["®", 174.0],
222
+ ["¯", 175.0],
223
+ ["°", 176.0],
224
+ ["±", 177.0],
225
+ ["²", 178.0],
226
+ ["³", 179.0],
227
+ ["´", 180.0],
228
+ ["µ", 181.0],
229
+ ["¶", 182.0],
230
+ ["·", 183.0],
231
+ ["¸", 184.0],
232
+ ["¹", 185.0],
233
+ ["º", 186.0],
234
+ ["»", 187.0],
235
+ ["¼", 188.0],
236
+ ["½", 189.0],
237
+ ["¾", 190.0],
238
+ ["¿", 191.0],
239
+ ["À", 192.0],
240
+ ["Á", 193.0],
241
+ ["Â", 194.0],
242
+ ["Ã", 195.0],
243
+ ["Ä", 196.0],
244
+ ["Å", 197.0],
245
+ ["Æ", 198.0],
246
+ ["Ç", 199.0],
247
+ ["È", 200.0],
248
+ ["É", 201.0],
249
+ ["Ê", 202.0],
250
+ ["Ë", 203.0],
251
+ ["Ì", 204.0],
252
+ ["Í", 205.0],
253
+ ["Î", 206.0],
254
+ ["Ï", 207.0],
255
+ ["Ð", 208.0],
256
+ ["Ñ", 209.0],
257
+ ["Ò", 210.0],
258
+ ["Ó", 211.0],
259
+ ["Ô", 212.0],
260
+ ["Õ", 213.0],
261
+ ["Ö", 214.0],
262
+ ["×", 215.0],
263
+ ["Ø", 216.0],
264
+ ["Ù", 217.0],
265
+ ["Ú", 218.0],
266
+ ["Û", 219.0],
267
+ ["Ü", 220.0],
268
+ ["Ý", 221.0],
269
+ ["Þ", 222.0],
270
+ ["ß", 223.0],
271
+ ["à", 224.0],
272
+ ["á", 225.0],
273
+ ["â", 226.0],
274
+ ["ã", 227.0],
275
+ ["ä", 228.0],
276
+ ["å", 229.0],
277
+ ["æ", 230.0],
278
+ ["ç", 231.0],
279
+ ["è", 232.0],
280
+ ["é", 233.0],
281
+ ["ê", 234.0],
282
+ ["ë", 235.0],
283
+ ["ì", 236.0],
284
+ ["í", 237.0],
285
+ ["î", 238.0],
286
+ ["ï", 239.0],
287
+ ["ð", 240.0],
288
+ ["ñ", 241.0],
289
+ ["ò", 242.0],
290
+ ["ó", 243.0],
291
+ ["ô", 244.0],
292
+ ["õ", 245.0],
293
+ ["ö", 246.0],
294
+ ["÷", 247.0],
295
+ ["ø", 248.0],
296
+ ["ù", 249.0],
297
+ ["ú", 250.0],
298
+ ["û", 251.0],
299
+ ["ü", 252.0],
300
+ ["ý", 253.0],
301
+ ["þ", 254.0],
302
+ ["ÿ", 255.0]
303
+ ]
304
+ }
305
+ }