visualjoyce
commited on
Commit
•
76dd20d
1
Parent(s):
ae4c69a
add pinyingpt concat
Browse files- README.md +23 -0
- additional_special_tokens.json +445 -0
- config.json +34 -0
- pinyin2char.json +0 -0
- pytorch_model.bin +3 -0
- special_tokens_map.json +1 -0
- tokenizer_config.json +1 -0
- vocab.txt +0 -0
README.md
CHANGED
@@ -1,3 +1,26 @@
|
|
1 |
---
|
2 |
license: cc-by-nc-sa-4.0
|
3 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
license: cc-by-nc-sa-4.0
|
3 |
---
|
4 |
+
|
5 |
+
![ime](https://user-images.githubusercontent.com/2136700/160290194-4f30a796-876a-4750-bb3b-b5b62c4676c5.png)
|
6 |
+
# Transformers4IME
|
7 |
+
|
8 |
+
Transformers4IME is repo for exploring and adapting transformer-based models to IME.
|
9 |
+
|
10 |
+
## PinyinGPT
|
11 |
+
|
12 |
+
PinyinGPT is a model from [Exploring and Adapting Chinese GPT to Pinyin Input Method](https://arxiv.org/abs/2203.00249)
|
13 |
+
which appears in ACL2022.
|
14 |
+
```bibtex
|
15 |
+
@article{tan2022exploring,
|
16 |
+
title={Exploring and Adapting Chinese GPT to Pinyin Input Method},
|
17 |
+
author={Tan, Minghuan and Dai, Yong and Tang, Duyu and Feng, Zhangyin and Huang, Guoping and Jiang, Jing and Li, Jiwei and Shi, Shuming},
|
18 |
+
journal={arXiv preprint arXiv:2203.00249},
|
19 |
+
year={2022}
|
20 |
+
}
|
21 |
+
```
|
22 |
+
|
23 |
+
The code can be found at
|
24 |
+
* [Gitee](https://gitee.com/visualjoyce/Transformers4IME)
|
25 |
+
* [Github](https://github.com/visualjoyce/Transformers4IME)
|
26 |
+
|
additional_special_tokens.json
ADDED
@@ -0,0 +1,445 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
"[a]",
|
3 |
+
"[b]",
|
4 |
+
"[c]",
|
5 |
+
"[d]",
|
6 |
+
"[e]",
|
7 |
+
"[f]",
|
8 |
+
"[g]",
|
9 |
+
"[h]",
|
10 |
+
"[j]",
|
11 |
+
"[k]",
|
12 |
+
"[l]",
|
13 |
+
"[m]",
|
14 |
+
"[n]",
|
15 |
+
"[o]",
|
16 |
+
"[p]",
|
17 |
+
"[q]",
|
18 |
+
"[r]",
|
19 |
+
"[s]",
|
20 |
+
"[t]",
|
21 |
+
"[w]",
|
22 |
+
"[x]",
|
23 |
+
"[y]",
|
24 |
+
"[z]",
|
25 |
+
"[ê]",
|
26 |
+
"[ai]",
|
27 |
+
"[an]",
|
28 |
+
"[ang]",
|
29 |
+
"[ao]",
|
30 |
+
"[ba]",
|
31 |
+
"[bai]",
|
32 |
+
"[ban]",
|
33 |
+
"[bang]",
|
34 |
+
"[bao]",
|
35 |
+
"[bei]",
|
36 |
+
"[ben]",
|
37 |
+
"[beng]",
|
38 |
+
"[bi]",
|
39 |
+
"[bian]",
|
40 |
+
"[biang]",
|
41 |
+
"[biao]",
|
42 |
+
"[bie]",
|
43 |
+
"[bin]",
|
44 |
+
"[bing]",
|
45 |
+
"[bo]",
|
46 |
+
"[bu]",
|
47 |
+
"[ca]",
|
48 |
+
"[cai]",
|
49 |
+
"[can]",
|
50 |
+
"[cang]",
|
51 |
+
"[cao]",
|
52 |
+
"[ce]",
|
53 |
+
"[cei]",
|
54 |
+
"[cen]",
|
55 |
+
"[ceng]",
|
56 |
+
"[cha]",
|
57 |
+
"[chai]",
|
58 |
+
"[chan]",
|
59 |
+
"[chang]",
|
60 |
+
"[chao]",
|
61 |
+
"[che]",
|
62 |
+
"[chen]",
|
63 |
+
"[cheng]",
|
64 |
+
"[chi]",
|
65 |
+
"[chong]",
|
66 |
+
"[chou]",
|
67 |
+
"[chu]",
|
68 |
+
"[chua]",
|
69 |
+
"[chuai]",
|
70 |
+
"[chuan]",
|
71 |
+
"[chuang]",
|
72 |
+
"[chui]",
|
73 |
+
"[chun]",
|
74 |
+
"[chuo]",
|
75 |
+
"[ci]",
|
76 |
+
"[cong]",
|
77 |
+
"[cou]",
|
78 |
+
"[cu]",
|
79 |
+
"[cuan]",
|
80 |
+
"[cui]",
|
81 |
+
"[cun]",
|
82 |
+
"[cuo]",
|
83 |
+
"[da]",
|
84 |
+
"[dai]",
|
85 |
+
"[dan]",
|
86 |
+
"[dang]",
|
87 |
+
"[dao]",
|
88 |
+
"[de]",
|
89 |
+
"[dei]",
|
90 |
+
"[den]",
|
91 |
+
"[deng]",
|
92 |
+
"[di]",
|
93 |
+
"[dia]",
|
94 |
+
"[dian]",
|
95 |
+
"[diao]",
|
96 |
+
"[die]",
|
97 |
+
"[din]",
|
98 |
+
"[ding]",
|
99 |
+
"[diu]",
|
100 |
+
"[dong]",
|
101 |
+
"[dou]",
|
102 |
+
"[du]",
|
103 |
+
"[duan]",
|
104 |
+
"[dui]",
|
105 |
+
"[dun]",
|
106 |
+
"[duo]",
|
107 |
+
"[ei]",
|
108 |
+
"[en]",
|
109 |
+
"[eng]",
|
110 |
+
"[er]",
|
111 |
+
"[fa]",
|
112 |
+
"[fan]",
|
113 |
+
"[fang]",
|
114 |
+
"[fei]",
|
115 |
+
"[fen]",
|
116 |
+
"[feng]",
|
117 |
+
"[fiao]",
|
118 |
+
"[fo]",
|
119 |
+
"[fou]",
|
120 |
+
"[fu]",
|
121 |
+
"[ga]",
|
122 |
+
"[gai]",
|
123 |
+
"[gan]",
|
124 |
+
"[gang]",
|
125 |
+
"[gao]",
|
126 |
+
"[ge]",
|
127 |
+
"[gei]",
|
128 |
+
"[gen]",
|
129 |
+
"[geng]",
|
130 |
+
"[gong]",
|
131 |
+
"[gou]",
|
132 |
+
"[gu]",
|
133 |
+
"[gua]",
|
134 |
+
"[guai]",
|
135 |
+
"[guan]",
|
136 |
+
"[guang]",
|
137 |
+
"[gui]",
|
138 |
+
"[gun]",
|
139 |
+
"[guo]",
|
140 |
+
"[ha]",
|
141 |
+
"[hai]",
|
142 |
+
"[han]",
|
143 |
+
"[hang]",
|
144 |
+
"[hao]",
|
145 |
+
"[he]",
|
146 |
+
"[hei]",
|
147 |
+
"[hen]",
|
148 |
+
"[heng]",
|
149 |
+
"[hm]",
|
150 |
+
"[hng]",
|
151 |
+
"[hong]",
|
152 |
+
"[hou]",
|
153 |
+
"[hu]",
|
154 |
+
"[hua]",
|
155 |
+
"[huai]",
|
156 |
+
"[huan]",
|
157 |
+
"[huang]",
|
158 |
+
"[hui]",
|
159 |
+
"[hun]",
|
160 |
+
"[huo]",
|
161 |
+
"[ji]",
|
162 |
+
"[jia]",
|
163 |
+
"[jian]",
|
164 |
+
"[jiang]",
|
165 |
+
"[jiao]",
|
166 |
+
"[jie]",
|
167 |
+
"[jin]",
|
168 |
+
"[jing]",
|
169 |
+
"[jiong]",
|
170 |
+
"[jiu]",
|
171 |
+
"[ju]",
|
172 |
+
"[juan]",
|
173 |
+
"[jue]",
|
174 |
+
"[jun]",
|
175 |
+
"[ka]",
|
176 |
+
"[kai]",
|
177 |
+
"[kan]",
|
178 |
+
"[kang]",
|
179 |
+
"[kao]",
|
180 |
+
"[ke]",
|
181 |
+
"[kei]",
|
182 |
+
"[ken]",
|
183 |
+
"[keng]",
|
184 |
+
"[kong]",
|
185 |
+
"[kou]",
|
186 |
+
"[ku]",
|
187 |
+
"[kua]",
|
188 |
+
"[kuai]",
|
189 |
+
"[kuan]",
|
190 |
+
"[kuang]",
|
191 |
+
"[kui]",
|
192 |
+
"[kun]",
|
193 |
+
"[kuo]",
|
194 |
+
"[la]",
|
195 |
+
"[lai]",
|
196 |
+
"[lan]",
|
197 |
+
"[lang]",
|
198 |
+
"[lao]",
|
199 |
+
"[le]",
|
200 |
+
"[lei]",
|
201 |
+
"[len]",
|
202 |
+
"[leng]",
|
203 |
+
"[li]",
|
204 |
+
"[lia]",
|
205 |
+
"[lian]",
|
206 |
+
"[liang]",
|
207 |
+
"[liao]",
|
208 |
+
"[lie]",
|
209 |
+
"[lin]",
|
210 |
+
"[ling]",
|
211 |
+
"[liu]",
|
212 |
+
"[lo]",
|
213 |
+
"[long]",
|
214 |
+
"[lou]",
|
215 |
+
"[lu]",
|
216 |
+
"[luan]",
|
217 |
+
"[lun]",
|
218 |
+
"[luo]",
|
219 |
+
"[lv]",
|
220 |
+
"[lve]",
|
221 |
+
"[ma]",
|
222 |
+
"[mai]",
|
223 |
+
"[man]",
|
224 |
+
"[mang]",
|
225 |
+
"[mao]",
|
226 |
+
"[me]",
|
227 |
+
"[mei]",
|
228 |
+
"[men]",
|
229 |
+
"[meng]",
|
230 |
+
"[mi]",
|
231 |
+
"[mian]",
|
232 |
+
"[miao]",
|
233 |
+
"[mie]",
|
234 |
+
"[min]",
|
235 |
+
"[ming]",
|
236 |
+
"[miu]",
|
237 |
+
"[mo]",
|
238 |
+
"[mou]",
|
239 |
+
"[mu]",
|
240 |
+
"[na]",
|
241 |
+
"[nai]",
|
242 |
+
"[nan]",
|
243 |
+
"[nang]",
|
244 |
+
"[nao]",
|
245 |
+
"[ne]",
|
246 |
+
"[nei]",
|
247 |
+
"[nen]",
|
248 |
+
"[neng]",
|
249 |
+
"[ng]",
|
250 |
+
"[ni]",
|
251 |
+
"[nia]",
|
252 |
+
"[nian]",
|
253 |
+
"[niang]",
|
254 |
+
"[niao]",
|
255 |
+
"[nie]",
|
256 |
+
"[nin]",
|
257 |
+
"[ning]",
|
258 |
+
"[niu]",
|
259 |
+
"[nong]",
|
260 |
+
"[nou]",
|
261 |
+
"[nu]",
|
262 |
+
"[nuan]",
|
263 |
+
"[nun]",
|
264 |
+
"[nuo]",
|
265 |
+
"[nv]",
|
266 |
+
"[nve]",
|
267 |
+
"[ou]",
|
268 |
+
"[pa]",
|
269 |
+
"[pai]",
|
270 |
+
"[pan]",
|
271 |
+
"[pang]",
|
272 |
+
"[pao]",
|
273 |
+
"[pei]",
|
274 |
+
"[pen]",
|
275 |
+
"[peng]",
|
276 |
+
"[pi]",
|
277 |
+
"[pian]",
|
278 |
+
"[piao]",
|
279 |
+
"[pie]",
|
280 |
+
"[pin]",
|
281 |
+
"[ping]",
|
282 |
+
"[po]",
|
283 |
+
"[pou]",
|
284 |
+
"[pu]",
|
285 |
+
"[qi]",
|
286 |
+
"[qia]",
|
287 |
+
"[qian]",
|
288 |
+
"[qiang]",
|
289 |
+
"[qiao]",
|
290 |
+
"[qie]",
|
291 |
+
"[qin]",
|
292 |
+
"[qing]",
|
293 |
+
"[qiong]",
|
294 |
+
"[qiu]",
|
295 |
+
"[qu]",
|
296 |
+
"[quan]",
|
297 |
+
"[que]",
|
298 |
+
"[qun]",
|
299 |
+
"[ran]",
|
300 |
+
"[rang]",
|
301 |
+
"[rao]",
|
302 |
+
"[re]",
|
303 |
+
"[ren]",
|
304 |
+
"[reng]",
|
305 |
+
"[ri]",
|
306 |
+
"[rong]",
|
307 |
+
"[rou]",
|
308 |
+
"[ru]",
|
309 |
+
"[rua]",
|
310 |
+
"[ruan]",
|
311 |
+
"[rui]",
|
312 |
+
"[run]",
|
313 |
+
"[ruo]",
|
314 |
+
"[sa]",
|
315 |
+
"[sai]",
|
316 |
+
"[san]",
|
317 |
+
"[sang]",
|
318 |
+
"[sao]",
|
319 |
+
"[se]",
|
320 |
+
"[sen]",
|
321 |
+
"[seng]",
|
322 |
+
"[sha]",
|
323 |
+
"[shai]",
|
324 |
+
"[shan]",
|
325 |
+
"[shang]",
|
326 |
+
"[shao]",
|
327 |
+
"[she]",
|
328 |
+
"[shei]",
|
329 |
+
"[shen]",
|
330 |
+
"[sheng]",
|
331 |
+
"[shi]",
|
332 |
+
"[shou]",
|
333 |
+
"[shu]",
|
334 |
+
"[shua]",
|
335 |
+
"[shuai]",
|
336 |
+
"[shuan]",
|
337 |
+
"[shuang]",
|
338 |
+
"[shui]",
|
339 |
+
"[shun]",
|
340 |
+
"[shuo]",
|
341 |
+
"[si]",
|
342 |
+
"[song]",
|
343 |
+
"[sou]",
|
344 |
+
"[su]",
|
345 |
+
"[suan]",
|
346 |
+
"[sui]",
|
347 |
+
"[sun]",
|
348 |
+
"[suo]",
|
349 |
+
"[ta]",
|
350 |
+
"[tai]",
|
351 |
+
"[tan]",
|
352 |
+
"[tang]",
|
353 |
+
"[tao]",
|
354 |
+
"[te]",
|
355 |
+
"[tei]",
|
356 |
+
"[teng]",
|
357 |
+
"[ti]",
|
358 |
+
"[tian]",
|
359 |
+
"[tiao]",
|
360 |
+
"[tie]",
|
361 |
+
"[ting]",
|
362 |
+
"[tong]",
|
363 |
+
"[tou]",
|
364 |
+
"[tu]",
|
365 |
+
"[tuan]",
|
366 |
+
"[tui]",
|
367 |
+
"[tun]",
|
368 |
+
"[tuo]",
|
369 |
+
"[wa]",
|
370 |
+
"[wai]",
|
371 |
+
"[wan]",
|
372 |
+
"[wang]",
|
373 |
+
"[wei]",
|
374 |
+
"[wen]",
|
375 |
+
"[weng]",
|
376 |
+
"[wo]",
|
377 |
+
"[wong]",
|
378 |
+
"[wu]",
|
379 |
+
"[xi]",
|
380 |
+
"[xia]",
|
381 |
+
"[xian]",
|
382 |
+
"[xiang]",
|
383 |
+
"[xiao]",
|
384 |
+
"[xie]",
|
385 |
+
"[xin]",
|
386 |
+
"[xing]",
|
387 |
+
"[xiong]",
|
388 |
+
"[xiu]",
|
389 |
+
"[xu]",
|
390 |
+
"[xuan]",
|
391 |
+
"[xue]",
|
392 |
+
"[xun]",
|
393 |
+
"[ya]",
|
394 |
+
"[yan]",
|
395 |
+
"[yang]",
|
396 |
+
"[yao]",
|
397 |
+
"[ye]",
|
398 |
+
"[yi]",
|
399 |
+
"[yin]",
|
400 |
+
"[ying]",
|
401 |
+
"[yo]",
|
402 |
+
"[yong]",
|
403 |
+
"[you]",
|
404 |
+
"[yu]",
|
405 |
+
"[yuan]",
|
406 |
+
"[yue]",
|
407 |
+
"[yun]",
|
408 |
+
"[za]",
|
409 |
+
"[zai]",
|
410 |
+
"[zan]",
|
411 |
+
"[zang]",
|
412 |
+
"[zao]",
|
413 |
+
"[ze]",
|
414 |
+
"[zei]",
|
415 |
+
"[zen]",
|
416 |
+
"[zeng]",
|
417 |
+
"[zha]",
|
418 |
+
"[zhai]",
|
419 |
+
"[zhan]",
|
420 |
+
"[zhang]",
|
421 |
+
"[zhao]",
|
422 |
+
"[zhe]",
|
423 |
+
"[zhei]",
|
424 |
+
"[zhen]",
|
425 |
+
"[zheng]",
|
426 |
+
"[zhi]",
|
427 |
+
"[zhong]",
|
428 |
+
"[zhou]",
|
429 |
+
"[zhu]",
|
430 |
+
"[zhua]",
|
431 |
+
"[zhuai]",
|
432 |
+
"[zhuan]",
|
433 |
+
"[zhuang]",
|
434 |
+
"[zhui]",
|
435 |
+
"[zhun]",
|
436 |
+
"[zhuo]",
|
437 |
+
"[zi]",
|
438 |
+
"[zong]",
|
439 |
+
"[zou]",
|
440 |
+
"[zu]",
|
441 |
+
"[zuan]",
|
442 |
+
"[zui]",
|
443 |
+
"[zun]",
|
444 |
+
"[zuo]"
|
445 |
+
]
|
config.json
ADDED
@@ -0,0 +1,34 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "/apdcephfs/share_916081/yongdai/linyang/transformers/modelckpt860000/",
|
3 |
+
"activation_function": "gelu_new",
|
4 |
+
"architectures": [
|
5 |
+
"GPT2LMHeadModel"
|
6 |
+
],
|
7 |
+
"attn_pdrop": 0.1,
|
8 |
+
"embd_pdrop": 0.1,
|
9 |
+
"gradient_checkpointing": false,
|
10 |
+
"initializer_range": 0.02,
|
11 |
+
"layer_norm_epsilon": 1e-05,
|
12 |
+
"model_type": "gpt2",
|
13 |
+
"n_ctx": 1024,
|
14 |
+
"n_embd": 768,
|
15 |
+
"n_head": 12,
|
16 |
+
"n_inner": null,
|
17 |
+
"n_layer": 12,
|
18 |
+
"n_positions": 1024,
|
19 |
+
"output_past": true,
|
20 |
+
"resid_pdrop": 0.1,
|
21 |
+
"summary_activation": null,
|
22 |
+
"summary_first_dropout": 0.1,
|
23 |
+
"summary_proj_to_labels": true,
|
24 |
+
"summary_type": "cls_index",
|
25 |
+
"summary_use_proj": true,
|
26 |
+
"task_specific_params": {
|
27 |
+
"text-generation": {
|
28 |
+
"do_sample": true,
|
29 |
+
"max_length": 400
|
30 |
+
}
|
31 |
+
},
|
32 |
+
"tokenizer_class": "BertTokenizer",
|
33 |
+
"vocab_size": 21128
|
34 |
+
}
|
pinyin2char.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
pytorch_model.bin
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:1c5ebb9e7b15d75ea8899b914fc8363f4745703115253071f7834780263c74bb
|
3 |
+
size 488536999
|
special_tokens_map.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}
|
tokenizer_config.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"do_lower_case": false, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 1024}
|
vocab.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|