pietrolesci commited on
Commit
4cec80b
·
verified ·
1 Parent(s): 292036b

Upload folder using huggingface_hub

Browse files
.gitattributes CHANGED
@@ -37,3 +37,4 @@ _raw_tokenisers/bpe_minipile_2024-10-11T11-23-27/implemented_merges.jsonl filter
37
  _raw_tokenisers/bpe_minipile_2024-10-11T11-23-27/tokenizer.json filter=lfs diff=lfs merge=lfs -text
38
  _raw_tokenisers/wordpiece_minipile_2025-02-03T12-10-57/implemented_merges.jsonl filter=lfs diff=lfs merge=lfs -text
39
  _raw_tokenisers/bpe_2025-09-20T17-01-07/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 
 
37
  _raw_tokenisers/bpe_minipile_2024-10-11T11-23-27/tokenizer.json filter=lfs diff=lfs merge=lfs -text
38
  _raw_tokenisers/wordpiece_minipile_2025-02-03T12-10-57/implemented_merges.jsonl filter=lfs diff=lfs merge=lfs -text
39
  _raw_tokenisers/bpe_2025-09-20T17-01-07/tokenizer.json filter=lfs diff=lfs merge=lfs -text
40
+ _raw_tokenisers/bpe320000_2025-09-20T17-01-07/tokenizer.json filter=lfs diff=lfs merge=lfs -text
_raw_tokenisers/bpe320000_2025-09-20T17-01-07/metadata.yaml ADDED
@@ -0,0 +1,270 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ dataset_uri: hf://datasets/HuggingFaceTB/dclm-edu/data/*.parquet
2
+ shuffle: false
3
+ num_docs: 149993964
4
+ max_vocab_size: 320000
5
+ special_tokens_map:
6
+ eos_token: <|eos|>
7
+ trainer_kwargs:
8
+ vocab_size: 320000
9
+ min_frequency: 2
10
+ show_progress: true
11
+ special_tokens:
12
+ - <|eos|>
13
+ initial_alphabet:
14
+ - Đ
15
+ - ö
16
+ - ß
17
+ - ħ
18
+ - Ã
19
+ - '!'
20
+ - £
21
+ - S
22
+ - W
23
+ - f
24
+ - Č
25
+ - ¯
26
+ - Ŀ
27
+ - '2'
28
+ - '1'
29
+ - E
30
+ - t
31
+ - ė
32
+ - Ý
33
+ - þ
34
+ - IJ
35
+ - à
36
+ - ķ
37
+ - ®
38
+ - ġ
39
+ - î
40
+ - Û
41
+ - Ĺ
42
+ - _
43
+ - ł
44
+ - ','
45
+ - ä
46
+ - Ļ
47
+ - '0'
48
+ - C
49
+ - Q
50
+ - '8'
51
+ - Ñ
52
+ - ½
53
+ - ď
54
+ - u
55
+ - Á
56
+ - Ĭ
57
+ - ĺ
58
+ - ¸
59
+ - ĕ
60
+ - Ô
61
+ - ²
62
+ - µ
63
+ - Ċ
64
+ - ã
65
+ - ¶
66
+ - º
67
+ - '`'
68
+ - Ē
69
+ - '{'
70
+ - Ă
71
+ - Í
72
+ - '4'
73
+ - ě
74
+ - Ĵ
75
+ - K
76
+ - M
77
+ - H
78
+ - ^
79
+ - B
80
+ - Ě
81
+ - '9'
82
+ - ¾
83
+ - ĸ
84
+ - '>'
85
+ - đ
86
+ - ç
87
+ - ô
88
+ - ¥
89
+ - L
90
+ - À
91
+ - Æ
92
+ - Ď
93
+ - z
94
+ - Ĕ
95
+ - h
96
+ - ¹
97
+ - Ù
98
+ - $
99
+ - g
100
+ - ċ
101
+ - õ
102
+ - r
103
+ - '6'
104
+ - Ń
105
+ - ľ
106
+ - ĉ
107
+ - \
108
+ - û
109
+ - ĝ
110
+ - '|'
111
+ - ª
112
+ - ¿
113
+ - '%'
114
+ - ':'
115
+ - Ë
116
+ - Į
117
+ - Ģ
118
+ - ñ
119
+ - ¤
120
+ - T
121
+ - č
122
+ - x
123
+ - l
124
+ - é
125
+ - á
126
+ - '"'
127
+ - ³
128
+ - Ķ
129
+ - '['
130
+ - e
131
+ - Î
132
+ - '-'
133
+ - ï
134
+ - ą
135
+ - ŀ
136
+ - Ç
137
+ - ']'
138
+ - ă
139
+ - G
140
+ - X
141
+ - +
142
+ - Ę
143
+ - '='
144
+ - ø
145
+ - /
146
+ - ±
147
+ - §
148
+ - o
149
+ - Y
150
+ - Ğ
151
+ - Ħ
152
+ - D
153
+ - ē
154
+ - ì
155
+ - w
156
+ - (
157
+ - i
158
+ - Ú
159
+ - ¬
160
+ - Ó
161
+ - F
162
+ - '@'
163
+ - Ü
164
+ - â
165
+ - ¢
166
+ - Ö
167
+ - p
168
+ - ļ
169
+ - »
170
+ - É
171
+ - U
172
+ - P
173
+ - V
174
+ - Ä
175
+ - <
176
+ - j
177
+ - ij
178
+ - Þ
179
+ - v
180
+ - ĩ
181
+ - Ò
182
+ - ć
183
+ - ü
184
+ - I
185
+ - ğ
186
+ - İ
187
+ - O
188
+ - a
189
+ - Ê
190
+ - Ĉ
191
+ - '&'
192
+ - Ą
193
+ - '#'
194
+ - è
195
+ - Â
196
+ - ā
197
+ - )
198
+ - R
199
+ - ĥ
200
+ - Ð
201
+ - ¼
202
+ - k
203
+ - ·
204
+ - ı
205
+ - ó
206
+ - ú
207
+ - ò
208
+ - b
209
+ - ð
210
+ - Ł
211
+ - q
212
+ - °
213
+ - '5'
214
+ - ´
215
+ - æ
216
+ - å
217
+ - J
218
+ - '}'
219
+ - ĵ
220
+ - s
221
+ - Ā
222
+ - ÿ
223
+ - í
224
+ - '~'
225
+ - c
226
+ - È
227
+ - ×
228
+ - d
229
+ - Ĥ
230
+ - Ė
231
+ - «
232
+ - Ĩ
233
+ - A
234
+ - Ì
235
+ - Ć
236
+ - Ĝ
237
+ - ë
238
+ - Ľ
239
+ - ¨
240
+ - ý
241
+ - ÷
242
+ - y
243
+ - ù
244
+ - "'"
245
+ - Ī
246
+ - ī
247
+ - ¡
248
+ - Å
249
+ - '?'
250
+ - ©
251
+ - ģ
252
+ - ¦
253
+ - Z
254
+ - ę
255
+ - ;
256
+ - ê
257
+ - '*'
258
+ - '3'
259
+ - Õ
260
+ - N
261
+ - Ï
262
+ - m
263
+ - Ġ
264
+ - Ø
265
+ - ĭ
266
+ - '7'
267
+ - į
268
+ - n
269
+ - .
270
+ max_token_length: 128
_raw_tokenisers/bpe320000_2025-09-20T17-01-07/tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b53e8c63463244ec02bdabdeac7824458a192888cbb2279175403eed083d8a40
3
+ size 23546350