Narsil HF staff commited on
Commit
c4948ff
1 Parent(s): 870576b

Adding tokenizer ?

Browse files
Files changed (2) hide show
  1. tokenizer.json +271 -0
  2. tokenizer_config.json +1 -0
tokenizer.json ADDED
@@ -0,0 +1,271 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "version": "1.0",
3
+ "truncation": null,
4
+ "padding": null,
5
+ "added_tokens": [],
6
+ "normalizer": null,
7
+ "pre_tokenizer": null,
8
+ "post_processor": null,
9
+ "decoder": null,
10
+ "model": {
11
+ "unk_id": null,
12
+ "vocab": [
13
+ ["\u0000", 0.0],
14
+ ["\u0001", 1.0],
15
+ ["\u0002", 2.0],
16
+ ["\u0003", 3.0],
17
+ ["\u0004", 4.0],
18
+ ["\u0005", 5.0],
19
+ ["\u0006", 6.0],
20
+ ["\u0007", 7.0],
21
+ ["\b", 8.0],
22
+ ["\t", 9.0],
23
+ ["\n", 10.0],
24
+ ["\u000b", 11.0],
25
+ ["\f", 12.0],
26
+ ["\r", 13.0],
27
+ ["\u000e", 14.0],
28
+ ["\u000f", 15.0],
29
+ ["\u0010", 16.0],
30
+ ["\u0011", 17.0],
31
+ ["\u0012", 18.0],
32
+ ["\u0013", 19.0],
33
+ ["\u0014", 20.0],
34
+ ["\u0015", 21.0],
35
+ ["\u0016", 22.0],
36
+ ["\u0017", 23.0],
37
+ ["\u0018", 24.0],
38
+ ["\u0019", 25.0],
39
+ ["\u001a", 26.0],
40
+ ["\u001b", 27.0],
41
+ ["\u001c", 28.0],
42
+ ["\u001d", 29.0],
43
+ ["\u001e", 30.0],
44
+ ["\u001f", 31.0],
45
+ [" ", 32.0],
46
+ ["!", 33.0],
47
+ ["\"", 34.0],
48
+ ["#", 35.0],
49
+ ["$", 36.0],
50
+ ["%", 37.0],
51
+ ["&", 38.0],
52
+ ["'", 39.0],
53
+ ["(", 40.0],
54
+ [")", 41.0],
55
+ ["*", 42.0],
56
+ ["+", 43.0],
57
+ [",", 44.0],
58
+ ["-", 45.0],
59
+ [".", 46.0],
60
+ ["/", 47.0],
61
+ ["0", 48.0],
62
+ ["1", 49.0],
63
+ ["2", 50.0],
64
+ ["3", 51.0],
65
+ ["4", 52.0],
66
+ ["5", 53.0],
67
+ ["6", 54.0],
68
+ ["7", 55.0],
69
+ ["8", 56.0],
70
+ ["9", 57.0],
71
+ [":", 58.0],
72
+ [";", 59.0],
73
+ ["<", 60.0],
74
+ ["=", 61.0],
75
+ [">", 62.0],
76
+ ["?", 63.0],
77
+ ["@", 64.0],
78
+ ["A", 65.0],
79
+ ["B", 66.0],
80
+ ["C", 67.0],
81
+ ["D", 68.0],
82
+ ["E", 69.0],
83
+ ["F", 70.0],
84
+ ["G", 71.0],
85
+ ["H", 72.0],
86
+ ["I", 73.0],
87
+ ["J", 74.0],
88
+ ["K", 75.0],
89
+ ["L", 76.0],
90
+ ["M", 77.0],
91
+ ["N", 78.0],
92
+ ["O", 79.0],
93
+ ["P", 80.0],
94
+ ["Q", 81.0],
95
+ ["R", 82.0],
96
+ ["S", 83.0],
97
+ ["T", 84.0],
98
+ ["U", 85.0],
99
+ ["V", 86.0],
100
+ ["W", 87.0],
101
+ ["X", 88.0],
102
+ ["Y", 89.0],
103
+ ["Z", 90.0],
104
+ ["[", 91.0],
105
+ ["\\", 92.0],
106
+ ["]", 93.0],
107
+ ["^", 94.0],
108
+ ["_", 95.0],
109
+ ["`", 96.0],
110
+ ["a", 97.0],
111
+ ["b", 98.0],
112
+ ["c", 99.0],
113
+ ["d", 100.0],
114
+ ["e", 101.0],
115
+ ["f", 102.0],
116
+ ["g", 103.0],
117
+ ["h", 104.0],
118
+ ["i", 105.0],
119
+ ["j", 106.0],
120
+ ["k", 107.0],
121
+ ["l", 108.0],
122
+ ["m", 109.0],
123
+ ["n", 110.0],
124
+ ["o", 111.0],
125
+ ["p", 112.0],
126
+ ["q", 113.0],
127
+ ["r", 114.0],
128
+ ["s", 115.0],
129
+ ["t", 116.0],
130
+ ["u", 117.0],
131
+ ["v", 118.0],
132
+ ["w", 119.0],
133
+ ["x", 120.0],
134
+ ["y", 121.0],
135
+ ["z", 122.0],
136
+ ["{", 123.0],
137
+ ["|", 124.0],
138
+ ["}", 125.0],
139
+ ["~", 126.0],
140
+ ["", 127.0],
141
+ ["€", 128.0],
142
+ ["", 129.0],
143
+ ["‚", 130.0],
144
+ ["ƒ", 131.0],
145
+ ["„", 132.0],
146
+ ["…", 133.0],
147
+ ["†", 134.0],
148
+ ["‡", 135.0],
149
+ ["ˆ", 136.0],
150
+ ["‰", 137.0],
151
+ ["Š", 138.0],
152
+ ["‹", 139.0],
153
+ ["Œ", 140.0],
154
+ ["", 141.0],
155
+ ["Ž", 142.0],
156
+ ["", 143.0],
157
+ ["", 144.0],
158
+ ["‘", 145.0],
159
+ ["’", 146.0],
160
+ ["“", 147.0],
161
+ ["”", 148.0],
162
+ ["•", 149.0],
163
+ ["–", 150.0],
164
+ ["—", 151.0],
165
+ ["˜", 152.0],
166
+ ["™", 153.0],
167
+ ["š", 154.0],
168
+ ["›", 155.0],
169
+ ["œ", 156.0],
170
+ ["", 157.0],
171
+ ["ž", 158.0],
172
+ ["Ÿ", 159.0],
173
+ [" ", 160.0],
174
+ ["¡", 161.0],
175
+ ["¢", 162.0],
176
+ ["£", 163.0],
177
+ ["¤", 164.0],
178
+ ["¥", 165.0],
179
+ ["¦", 166.0],
180
+ ["§", 167.0],
181
+ ["¨", 168.0],
182
+ ["©", 169.0],
183
+ ["ª", 170.0],
184
+ ["«", 171.0],
185
+ ["¬", 172.0],
186
+ ["­", 173.0],
187
+ ["®", 174.0],
188
+ ["¯", 175.0],
189
+ ["°", 176.0],
190
+ ["±", 177.0],
191
+ ["²", 178.0],
192
+ ["³", 179.0],
193
+ ["´", 180.0],
194
+ ["µ", 181.0],
195
+ ["¶", 182.0],
196
+ ["·", 183.0],
197
+ ["¸", 184.0],
198
+ ["¹", 185.0],
199
+ ["º", 186.0],
200
+ ["»", 187.0],
201
+ ["¼", 188.0],
202
+ ["½", 189.0],
203
+ ["¾", 190.0],
204
+ ["¿", 191.0],
205
+ ["À", 192.0],
206
+ ["Á", 193.0],
207
+ ["Â", 194.0],
208
+ ["Ã", 195.0],
209
+ ["Ä", 196.0],
210
+ ["Å", 197.0],
211
+ ["Æ", 198.0],
212
+ ["Ç", 199.0],
213
+ ["È", 200.0],
214
+ ["É", 201.0],
215
+ ["Ê", 202.0],
216
+ ["Ë", 203.0],
217
+ ["Ì", 204.0],
218
+ ["Í", 205.0],
219
+ ["Î", 206.0],
220
+ ["Ï", 207.0],
221
+ ["Ð", 208.0],
222
+ ["Ñ", 209.0],
223
+ ["Ò", 210.0],
224
+ ["Ó", 211.0],
225
+ ["Ô", 212.0],
226
+ ["Õ", 213.0],
227
+ ["Ö", 214.0],
228
+ ["×", 215.0],
229
+ ["Ø", 216.0],
230
+ ["Ù", 217.0],
231
+ ["Ú", 218.0],
232
+ ["Û", 219.0],
233
+ ["Ü", 220.0],
234
+ ["Ý", 221.0],
235
+ ["Þ", 222.0],
236
+ ["ß", 223.0],
237
+ ["à", 224.0],
238
+ ["á", 225.0],
239
+ ["â", 226.0],
240
+ ["ã", 227.0],
241
+ ["ä", 228.0],
242
+ ["å", 229.0],
243
+ ["æ", 230.0],
244
+ ["ç", 231.0],
245
+ ["è", 232.0],
246
+ ["é", 233.0],
247
+ ["ê", 234.0],
248
+ ["ë", 235.0],
249
+ ["ì", 236.0],
250
+ ["í", 237.0],
251
+ ["î", 238.0],
252
+ ["ï", 239.0],
253
+ ["ð", 240.0],
254
+ ["ñ", 241.0],
255
+ ["ò", 242.0],
256
+ ["ó", 243.0],
257
+ ["ô", 244.0],
258
+ ["õ", 245.0],
259
+ ["ö", 246.0],
260
+ ["÷", 247.0],
261
+ ["ø", 248.0],
262
+ ["ù", 249.0],
263
+ ["ú", 250.0],
264
+ ["û", 251.0],
265
+ ["ü", 252.0],
266
+ ["ý", 253.0],
267
+ ["þ", 254.0],
268
+ ["ÿ", 255.0]
269
+ ]
270
+ }
271
+ }
tokenizer_config.json ADDED
@@ -0,0 +1 @@
 
1
+ { "model_max_length": 4 }