add pinyingpt concat

Browse files

Files changed (8) hide show

README.md +23 -0
additional_special_tokens.json +445 -0
config.json +34 -0
pinyin2char.json +0 -0
pytorch_model.bin +3 -0
special_tokens_map.json +1 -0
tokenizer_config.json +1 -0
vocab.txt +0 -0

README.md CHANGED Viewed

@@ -1,3 +1,26 @@
 ---
 license: cc-by-nc-sa-4.0
 ---

 ---
 license: cc-by-nc-sa-4.0
 ---
+![ime](https://user-images.githubusercontent.com/2136700/160290194-4f30a796-876a-4750-bb3b-b5b62c4676c5.png)
+# Transformers4IME
+Transformers4IME is repo for exploring and adapting transformer-based models to IME.
+## PinyinGPT
+PinyinGPT is a model from [Exploring and Adapting Chinese GPT to Pinyin Input Method](https://arxiv.org/abs/2203.00249)
+which appears in ACL2022.
+```bibtex
+@article{tan2022exploring,
+  title={Exploring and Adapting Chinese GPT to Pinyin Input Method},
+  author={Tan, Minghuan and Dai, Yong and Tang, Duyu and Feng, Zhangyin and Huang, Guoping and Jiang, Jing and Li, Jiwei and Shi, Shuming},
+  journal={arXiv preprint arXiv:2203.00249},
+  year={2022}
+}
+```
+The code can be found at
+* [Gitee](https://gitee.com/visualjoyce/Transformers4IME)
+* [Github](https://github.com/visualjoyce/Transformers4IME)

additional_special_tokens.json ADDED Viewed

	@@ -0,0 +1,445 @@

+[
+  "[a]",
+  "[b]",
+  "[c]",
+  "[d]",
+  "[e]",
+  "[f]",
+  "[g]",
+  "[h]",
+  "[j]",
+  "[k]",
+  "[l]",
+  "[m]",
+  "[n]",
+  "[o]",
+  "[p]",
+  "[q]",
+  "[r]",
+  "[s]",
+  "[t]",
+  "[w]",
+  "[x]",
+  "[y]",
+  "[z]",
+  "[ê]",
+  "[ai]",
+  "[an]",
+  "[ang]",
+  "[ao]",
+  "[ba]",
+  "[bai]",
+  "[ban]",
+  "[bang]",
+  "[bao]",
+  "[bei]",
+  "[ben]",
+  "[beng]",
+  "[bi]",
+  "[bian]",
+  "[biang]",
+  "[biao]",
+  "[bie]",
+  "[bin]",
+  "[bing]",
+  "[bo]",
+  "[bu]",
+  "[ca]",
+  "[cai]",
+  "[can]",
+  "[cang]",
+  "[cao]",
+  "[ce]",
+  "[cei]",
+  "[cen]",
+  "[ceng]",
+  "[cha]",
+  "[chai]",
+  "[chan]",
+  "[chang]",
+  "[chao]",
+  "[che]",
+  "[chen]",
+  "[cheng]",
+  "[chi]",
+  "[chong]",
+  "[chou]",
+  "[chu]",
+  "[chua]",
+  "[chuai]",
+  "[chuan]",
+  "[chuang]",
+  "[chui]",
+  "[chun]",
+  "[chuo]",
+  "[ci]",
+  "[cong]",
+  "[cou]",
+  "[cu]",
+  "[cuan]",
+  "[cui]",
+  "[cun]",
+  "[cuo]",
+  "[da]",
+  "[dai]",
+  "[dan]",
+  "[dang]",
+  "[dao]",
+  "[de]",
+  "[dei]",
+  "[den]",
+  "[deng]",
+  "[di]",
+  "[dia]",
+  "[dian]",
+  "[diao]",
+  "[die]",
+  "[din]",
+  "[ding]",
+  "[diu]",
+  "[dong]",
+  "[dou]",
+  "[du]",
+  "[duan]",
+  "[dui]",
+  "[dun]",
+  "[duo]",
+  "[ei]",
+  "[en]",
+  "[eng]",
+  "[er]",
+  "[fa]",
+  "[fan]",
+  "[fang]",
+  "[fei]",
+  "[fen]",
+  "[feng]",
+  "[fiao]",
+  "[fo]",
+  "[fou]",
+  "[fu]",
+  "[ga]",
+  "[gai]",
+  "[gan]",
+  "[gang]",
+  "[gao]",
+  "[ge]",
+  "[gei]",
+  "[gen]",
+  "[geng]",
+  "[gong]",
+  "[gou]",
+  "[gu]",
+  "[gua]",
+  "[guai]",
+  "[guan]",
+  "[guang]",
+  "[gui]",
+  "[gun]",
+  "[guo]",
+  "[ha]",
+  "[hai]",
+  "[han]",
+  "[hang]",
+  "[hao]",
+  "[he]",
+  "[hei]",
+  "[hen]",
+  "[heng]",
+  "[hm]",
+  "[hng]",
+  "[hong]",
+  "[hou]",
+  "[hu]",
+  "[hua]",
+  "[huai]",
+  "[huan]",
+  "[huang]",
+  "[hui]",
+  "[hun]",
+  "[huo]",
+  "[ji]",
+  "[jia]",
+  "[jian]",
+  "[jiang]",
+  "[jiao]",
+  "[jie]",
+  "[jin]",
+  "[jing]",
+  "[jiong]",
+  "[jiu]",
+  "[ju]",
+  "[juan]",
+  "[jue]",
+  "[jun]",
+  "[ka]",
+  "[kai]",
+  "[kan]",
+  "[kang]",
+  "[kao]",
+  "[ke]",
+  "[kei]",
+  "[ken]",
+  "[keng]",
+  "[kong]",
+  "[kou]",
+  "[ku]",
+  "[kua]",
+  "[kuai]",
+  "[kuan]",
+  "[kuang]",
+  "[kui]",
+  "[kun]",
+  "[kuo]",
+  "[la]",
+  "[lai]",
+  "[lan]",
+  "[lang]",
+  "[lao]",
+  "[le]",
+  "[lei]",
+  "[len]",
+  "[leng]",
+  "[li]",
+  "[lia]",
+  "[lian]",
+  "[liang]",
+  "[liao]",
+  "[lie]",
+  "[lin]",
+  "[ling]",
+  "[liu]",
+  "[lo]",
+  "[long]",
+  "[lou]",
+  "[lu]",
+  "[luan]",
+  "[lun]",
+  "[luo]",
+  "[lv]",
+  "[lve]",
+  "[ma]",
+  "[mai]",
+  "[man]",
+  "[mang]",
+  "[mao]",
+  "[me]",
+  "[mei]",
+  "[men]",
+  "[meng]",
+  "[mi]",
+  "[mian]",
+  "[miao]",
+  "[mie]",
+  "[min]",
+  "[ming]",
+  "[miu]",
+  "[mo]",
+  "[mou]",
+  "[mu]",
+  "[na]",
+  "[nai]",
+  "[nan]",
+  "[nang]",
+  "[nao]",
+  "[ne]",
+  "[nei]",
+  "[nen]",
+  "[neng]",
+  "[ng]",
+  "[ni]",
+  "[nia]",
+  "[nian]",
+  "[niang]",
+  "[niao]",
+  "[nie]",
+  "[nin]",
+  "[ning]",
+  "[niu]",
+  "[nong]",
+  "[nou]",
+  "[nu]",
+  "[nuan]",
+  "[nun]",
+  "[nuo]",
+  "[nv]",
+  "[nve]",
+  "[ou]",
+  "[pa]",
+  "[pai]",
+  "[pan]",
+  "[pang]",
+  "[pao]",
+  "[pei]",
+  "[pen]",
+  "[peng]",
+  "[pi]",
+  "[pian]",
+  "[piao]",
+  "[pie]",
+  "[pin]",
+  "[ping]",
+  "[po]",
+  "[pou]",
+  "[pu]",
+  "[qi]",
+  "[qia]",
+  "[qian]",
+  "[qiang]",
+  "[qiao]",
+  "[qie]",
+  "[qin]",
+  "[qing]",
+  "[qiong]",
+  "[qiu]",
+  "[qu]",
+  "[quan]",
+  "[que]",
+  "[qun]",
+  "[ran]",
+  "[rang]",
+  "[rao]",
+  "[re]",
+  "[ren]",
+  "[reng]",
+  "[ri]",
+  "[rong]",
+  "[rou]",
+  "[ru]",
+  "[rua]",
+  "[ruan]",
+  "[rui]",
+  "[run]",
+  "[ruo]",
+  "[sa]",
+  "[sai]",
+  "[san]",
+  "[sang]",
+  "[sao]",
+  "[se]",
+  "[sen]",
+  "[seng]",
+  "[sha]",
+  "[shai]",
+  "[shan]",
+  "[shang]",
+  "[shao]",
+  "[she]",
+  "[shei]",
+  "[shen]",
+  "[sheng]",
+  "[shi]",
+  "[shou]",
+  "[shu]",
+  "[shua]",
+  "[shuai]",
+  "[shuan]",
+  "[shuang]",
+  "[shui]",
+  "[shun]",
+  "[shuo]",
+  "[si]",
+  "[song]",
+  "[sou]",
+  "[su]",
+  "[suan]",
+  "[sui]",
+  "[sun]",
+  "[suo]",
+  "[ta]",
+  "[tai]",
+  "[tan]",
+  "[tang]",
+  "[tao]",
+  "[te]",
+  "[tei]",
+  "[teng]",
+  "[ti]",
+  "[tian]",
+  "[tiao]",
+  "[tie]",
+  "[ting]",
+  "[tong]",
+  "[tou]",
+  "[tu]",
+  "[tuan]",
+  "[tui]",
+  "[tun]",
+  "[tuo]",
+  "[wa]",
+  "[wai]",
+  "[wan]",
+  "[wang]",
+  "[wei]",
+  "[wen]",
+  "[weng]",
+  "[wo]",
+  "[wong]",
+  "[wu]",
+  "[xi]",
+  "[xia]",
+  "[xian]",
+  "[xiang]",
+  "[xiao]",
+  "[xie]",
+  "[xin]",
+  "[xing]",
+  "[xiong]",
+  "[xiu]",
+  "[xu]",
+  "[xuan]",
+  "[xue]",
+  "[xun]",
+  "[ya]",
+  "[yan]",
+  "[yang]",
+  "[yao]",
+  "[ye]",
+  "[yi]",
+  "[yin]",
+  "[ying]",
+  "[yo]",
+  "[yong]",
+  "[you]",
+  "[yu]",
+  "[yuan]",
+  "[yue]",
+  "[yun]",
+  "[za]",
+  "[zai]",
+  "[zan]",
+  "[zang]",
+  "[zao]",
+  "[ze]",
+  "[zei]",
+  "[zen]",
+  "[zeng]",
+  "[zha]",
+  "[zhai]",
+  "[zhan]",
+  "[zhang]",
+  "[zhao]",
+  "[zhe]",
+  "[zhei]",
+  "[zhen]",
+  "[zheng]",
+  "[zhi]",
+  "[zhong]",
+  "[zhou]",
+  "[zhu]",
+  "[zhua]",
+  "[zhuai]",
+  "[zhuan]",
+  "[zhuang]",
+  "[zhui]",
+  "[zhun]",
+  "[zhuo]",
+  "[zi]",
+  "[zong]",
+  "[zou]",
+  "[zu]",
+  "[zuan]",
+  "[zui]",
+  "[zun]",
+  "[zuo]"
+]

config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "/apdcephfs/share_916081/yongdai/linyang/transformers/modelckpt860000/",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "embd_pdrop": 0.1,
+  "gradient_checkpointing": false,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "output_past": true,
+  "resid_pdrop": 0.1,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 400
+    }
+  },
+  "tokenizer_class": "BertTokenizer",
+  "vocab_size": 21128
+}

pinyin2char.json ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c5ebb9e7b15d75ea8899b914fc8363f4745703115253071f7834780263c74bb
+size 488536999

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": false, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "model_max_length": 1024}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff