visualjoyce commited on
Commit
76dd20d
1 Parent(s): ae4c69a

add pinyingpt concat

Browse files
README.md CHANGED
@@ -1,3 +1,26 @@
1
  ---
2
  license: cc-by-nc-sa-4.0
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: cc-by-nc-sa-4.0
3
  ---
4
+
5
+ ![ime](https://user-images.githubusercontent.com/2136700/160290194-4f30a796-876a-4750-bb3b-b5b62c4676c5.png)
6
+ # Transformers4IME
7
+
8
+ Transformers4IME is repo for exploring and adapting transformer-based models to IME.
9
+
10
+ ## PinyinGPT
11
+
12
+ PinyinGPT is a model from [Exploring and Adapting Chinese GPT to Pinyin Input Method](https://arxiv.org/abs/2203.00249)
13
+ which appears in ACL2022.
14
+ ```bibtex
15
+ @article{tan2022exploring,
16
+ title={Exploring and Adapting Chinese GPT to Pinyin Input Method},
17
+ author={Tan, Minghuan and Dai, Yong and Tang, Duyu and Feng, Zhangyin and Huang, Guoping and Jiang, Jing and Li, Jiwei and Shi, Shuming},
18
+ journal={arXiv preprint arXiv:2203.00249},
19
+ year={2022}
20
+ }
21
+ ```
22
+
23
+ The code can be found at
24
+ * [Gitee](https://gitee.com/visualjoyce/Transformers4IME)
25
+ * [Github](https://github.com/visualjoyce/Transformers4IME)
26
+
additional_special_tokens.json ADDED
@@ -0,0 +1,445 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ "[a]",
3
+ "[b]",
4
+ "[c]",
5
+ "[d]",
6
+ "[e]",
7
+ "[f]",
8
+ "[g]",
9
+ "[h]",
10
+ "[j]",
11
+ "[k]",
12
+ "[l]",
13
+ "[m]",
14
+ "[n]",
15
+ "[o]",
16
+ "[p]",
17
+ "[q]",
18
+ "[r]",
19
+ "[s]",
20
+ "[t]",
21
+ "[w]",
22
+ "[x]",
23
+ "[y]",
24
+ "[z]",
25
+ "[ê]",
26
+ "[ai]",
27
+ "[an]",
28
+ "[ang]",
29
+ "[ao]",
30
+ "[ba]",
31
+ "[bai]",
32
+ "[ban]",
33
+ "[bang]",
34
+ "[bao]",
35
+ "[bei]",
36
+ "[ben]",
37
+ "[beng]",
38
+ "[bi]",
39
+ "[bian]",
40
+ "[biang]",
41
+ "[biao]",
42
+ "[bie]",
43
+ "[bin]",
44
+ "[bing]",
45
+ "[bo]",
46
+ "[bu]",
47
+ "[ca]",
48
+ "[cai]",
49
+ "[can]",
50
+ "[cang]",
51
+ "[cao]",
52
+ "[ce]",
53
+ "[cei]",
54
+ "[cen]",
55
+ "[ceng]",
56
+ "[cha]",
57
+ "[chai]",
58
+ "[chan]",
59
+ "[chang]",
60
+ "[chao]",
61
+ "[che]",
62
+ "[chen]",
63
+ "[cheng]",
64
+ "[chi]",
65
+ "[chong]",
66
+ "[chou]",
67
+ "[chu]",
68
+ "[chua]",
69
+ "[chuai]",
70
+ "[chuan]",
71
+ "[chuang]",
72
+ "[chui]",
73
+ "[chun]",
74
+ "[chuo]",
75
+ "[ci]",
76
+ "[cong]",
77
+ "[cou]",
78
+ "[cu]",
79
+ "[cuan]",
80
+ "[cui]",
81
+ "[cun]",
82
+ "[cuo]",
83
+ "[da]",
84
+ "[dai]",
85
+ "[dan]",
86
+ "[dang]",
87
+ "[dao]",
88
+ "[de]",
89
+ "[dei]",
90
+ "[den]",
91
+ "[deng]",
92
+ "[di]",
93
+ "[dia]",
94
+ "[dian]",
95
+ "[diao]",
96
+ "[die]",
97
+ "[din]",
98
+ "[ding]",
99
+ "[diu]",
100
+ "[dong]",
101
+ "[dou]",
102
+ "[du]",
103
+ "[duan]",
104
+ "[dui]",
105
+ "[dun]",
106
+ "[duo]",
107
+ "[ei]",
108
+ "[en]",
109
+ "[eng]",
110
+ "[er]",
111
+ "[fa]",
112
+ "[fan]",
113
+ "[fang]",
114
+ "[fei]",
115
+ "[fen]",
116
+ "[feng]",
117
+ "[fiao]",
118
+ "[fo]",
119
+ "[fou]",
120
+ "[fu]",
121
+ "[ga]",
122
+ "[gai]",
123
+ "[gan]",
124
+ "[gang]",
125
+ "[gao]",
126
+ "[ge]",
127
+ "[gei]",
128
+ "[gen]",
129
+ "[geng]",
130
+ "[gong]",
131
+ "[gou]",
132
+ "[gu]",
133
+ "[gua]",
134
+ "[guai]",
135
+ "[guan]",
136
+ "[guang]",
137
+ "[gui]",
138
+ "[gun]",
139
+ "[guo]",
140
+ "[ha]",
141
+ "[hai]",
142
+ "[han]",
143
+ "[hang]",
144
+ "[hao]",
145
+ "[he]",
146
+ "[hei]",
147
+ "[hen]",
148
+ "[heng]",
149
+ "[hm]",
150
+ "[hng]",
151
+ "[hong]",
152
+ "[hou]",
153
+ "[hu]",
154
+ "[hua]",
155
+ "[huai]",
156
+ "[huan]",
157
+ "[huang]",
158
+ "[hui]",
159
+ "[hun]",
160
+ "[huo]",
161
+ "[ji]",
162
+ "[jia]",
163
+ "[jian]",
164
+ "[jiang]",
165
+ "[jiao]",
166
+ "[jie]",
167
+ "[jin]",
168
+ "[jing]",
169
+ "[jiong]",
170
+ "[jiu]",
171
+ "[ju]",
172
+ "[juan]",
173
+ "[jue]",
174
+ "[jun]",
175
+ "[ka]",
176
+ "[kai]",
177
+ "[kan]",
178
+ "[kang]",
179
+ "[kao]",
180
+ "[ke]",
181
+ "[kei]",
182
+ "[ken]",
183
+ "[keng]",
184
+ "[kong]",
185
+ "[kou]",
186
+ "[ku]",
187
+ "[kua]",
188
+ "[kuai]",
189
+ "[kuan]",
190
+ "[kuang]",
191
+ "[kui]",
192
+ "[kun]",
193
+ "[kuo]",
194
+ "[la]",
195
+ "[lai]",
196
+ "[lan]",
197
+ "[lang]",
198
+ "[lao]",
199
+ "[le]",
200
+ "[lei]",
201
+ "[len]",
202
+ "[leng]",
203
+ "[li]",
204
+ "[lia]",
205
+ "[lian]",
206
+ "[liang]",
207
+ "[liao]",
208
+ "[lie]",
209
+ "[lin]",
210
+ "[ling]",
211
+ "[liu]",
212
+ "[lo]",
213
+ "[long]",
214
+ "[lou]",
215
+ "[lu]",
216
+ "[luan]",
217
+ "[lun]",
218
+ "[luo]",
219
+ "[lv]",
220
+ "[lve]",
221
+ "[ma]",
222
+ "[mai]",
223
+ "[man]",
224
+ "[mang]",
225
+ "[mao]",
226
+ "[me]",
227
+ "[mei]",
228
+ "[men]",
229
+ "[meng]",
230
+ "[mi]",
231
+ "[mian]",
232
+ "[miao]",
233
+ "[mie]",
234
+ "[min]",
235
+ "[ming]",
236
+ "[miu]",
237
+ "[mo]",
238
+ "[mou]",
239
+ "[mu]",
240
+ "[na]",
241
+ "[nai]",
242
+ "[nan]",
243
+ "[nang]",
244
+ "[nao]",
245
+ "[ne]",
246
+ "[nei]",
247
+ "[nen]",
248
+ "[neng]",
249
+ "[ng]",
250
+ "[ni]",
251
+ "[nia]",
252
+ "[nian]",
253
+ "[niang]",
254
+ "[niao]",
255
+ "[nie]",
256
+ "[nin]",
257
+ "[ning]",
258
+ "[niu]",
259
+ "[nong]",
260
+ "[nou]",
261
+ "[nu]",
262
+ "[nuan]",
263
+ "[nun]",
264
+ "[nuo]",
265
+ "[nv]",
266
+ "[nve]",
267
+ "[ou]",
268
+ "[pa]",
269
+ "[pai]",
270
+ "[pan]",
271
+ "[pang]",
272
+ "[pao]",
273
+ "[pei]",
274
+ "[pen]",
275
+ "[peng]",
276
+ "[pi]",
277
+ "[pian]",
278
+ "[piao]",
279
+ "[pie]",
280
+ "[pin]",
281
+ "[ping]",
282
+ "[po]",
283
+ "[pou]",
284
+ "[pu]",
285
+ "[qi]",
286
+ "[qia]",
287
+ "[qian]",
288
+ "[qiang]",
289
+ "[qiao]",
290
+ "[qie]",
291
+ "[qin]",
292
+ "[qing]",
293
+ "[qiong]",
294
+ "[qiu]",
295
+ "[qu]",
296
+ "[quan]",
297
+ "[que]",
298
+ "[qun]",
299
+ "[ran]",
300
+ "[rang]",
301
+ "[rao]",
302
+ "[re]",
303
+ "[ren]",
304
+ "[reng]",
305
+ "[ri]",
306
+ "[rong]",
307
+ "[rou]",
308
+ "[ru]",
309
+ "[rua]",
310
+ "[ruan]",
311
+ "[rui]",
312
+ "[run]",
313
+ "[ruo]",
314
+ "[sa]",
315
+ "[sai]",
316
+ "[san]",
317
+ "[sang]",
318
+ "[sao]",
319
+ "[se]",
320
+ "[sen]",
321
+ "[seng]",
322
+ "[sha]",
323
+ "[shai]",
324
+ "[shan]",
325
+ "[shang]",
326
+ "[shao]",
327
+ "[she]",
328
+ "[shei]",
329
+ "[shen]",
330
+ "[sheng]",
331
+ "[shi]",
332
+ "[shou]",
333
+ "[shu]",
334
+ "[shua]",
335
+ "[shuai]",
336
+ "[shuan]",
337
+ "[shuang]",
338
+ "[shui]",
339
+ "[shun]",
340
+ "[shuo]",
341
+ "[si]",
342
+ "[song]",
343
+ "[sou]",
344
+ "[su]",
345
+ "[suan]",
346
+ "[sui]",
347
+ "[sun]",
348
+ "[suo]",
349
+ "[ta]",
350
+ "[tai]",
351
+ "[tan]",
352
+ "[tang]",
353
+ "[tao]",
354
+ "[te]",
355
+ "[tei]",
356
+ "[teng]",
357
+ "[ti]",
358
+ "[tian]",
359
+ "[tiao]",
360
+ "[tie]",
361
+ "[ting]",
362
+ "[tong]",
363
+ "[tou]",
364
+ "[tu]",
365
+ "[tuan]",
366
+ "[tui]",
367
+ "[tun]",
368
+ "[tuo]",
369
+ "[wa]",
370
+ "[wai]",
371
+ "[wan]",
372
+ "[wang]",
373
+ "[wei]",
374
+ "[wen]",
375
+ "[weng]",
376
+ "[wo]",
377
+ "[wong]",
378
+ "[wu]",
379
+ "[xi]",
380
+ "[xia]",
381
+ "[xian]",
382
+ "[xiang]",
383
+ "[xiao]",
384
+ "[xie]",
385
+ "[xin]",
386
+ "[xing]",
387
+ "[xiong]",
388
+ "[xiu]",
389
+ "[xu]",
390
+ "[xuan]",
391
+ "[xue]",
392
+ "[xun]",
393
+ "[ya]",
394
+ "[yan]",
395
+ "[yang]",
396
+ "[yao]",
397
+ "[ye]",
398
+ "[yi]",
399
+ "[yin]",
400
+ "[ying]",
401
+ "[yo]",
402
+ "[yong]",
403
+ "[you]",
404
+ "[yu]",
405
+ "[yuan]",
406
+ "[yue]",
407
+ "[yun]",
408
+ "[za]",
409
+ "[zai]",
410
+ "[zan]",
411
+ "[zang]",
412
+ "[zao]",
413
+ "[ze]",
414
+ "[zei]",
415
+ "[zen]",
416
+ "[zeng]",
417
+ "[zha]",
418
+ "[zhai]",
419
+ "[zhan]",
420
+ "[zhang]",
421
+ "[zhao]",
422
+ "[zhe]",
423
+ "[zhei]",
424
+ "[zhen]",
425
+ "[zheng]",
426
+ "[zhi]",
427
+ "[zhong]",
428
+ "[zhou]",
429
+ "[zhu]",
430
+ "[zhua]",
431
+ "[zhuai]",
432
+ "[zhuan]",
433
+ "[zhuang]",
434
+ "[zhui]",
435
+ "[zhun]",
436
+ "[zhuo]",
437
+ "[zi]",
438
+ "[zong]",
439
+ "[zou]",
440
+ "[zu]",
441
+ "[zuan]",
442
+ "[zui]",
443
+ "[zun]",
444
+ "[zuo]"
445
+ ]
config.json ADDED
@@ -0,0 +1,34 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "/apdcephfs/share_916081/yongdai/linyang/transformers/modelckpt860000/",
3
+ "activation_function": "gelu_new",
4
+ "architectures": [
5
+ "GPT2LMHeadModel"
6
+ ],
7
+ "attn_pdrop": 0.1,
8
+ "embd_pdrop": 0.1,
9
+ "gradient_checkpointing": false,
10
+ "initializer_range": 0.02,
11
+ "layer_norm_epsilon": 1e-05,
12
+ "model_type": "gpt2",
13
+ "n_ctx": 1024,
14
+ "n_embd": 768,
15
+ "n_head": 12,
16
+ "n_inner": null,
17
+ "n_layer": 12,
18
+ "n_positions": 1024,
19
+ "output_past": true,
20
+ "resid_pdrop": 0.1,
21
+ "summary_activation": null,
22
+ "summary_first_dropout": 0.1,
23
+ "summary_proj_to_labels": true,
24
+ "summary_type": "cls_index",
25
+ "summary_use_proj": true,
26
+ "task_specific_params": {
27
+ "text-generation": {
28
+ "do_sample": true,
29
+ "max_length": 400
30
+ }
31
+ },
32
+ "tokenizer_class": "BertTokenizer",
33
+ "vocab_size": 21128
34
+ }
pinyin2char.json ADDED
The diff for this file is too large to render. See raw diff
 
pytorch_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1c5ebb9e7b15d75ea8899b914fc8363f4745703115253071f7834780263c74bb
3
+ size 488536999
special_tokens_map.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}
tokenizer_config.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"do_lower_case": false, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 1024}
vocab.txt ADDED
The diff for this file is too large to render. See raw diff