datasets: - wikipedia language: - zh - en tags: - chinese - english widget: - text: 粉圓,在珍珠奶茶中也稱波霸或珍珠,是一種 pipeline_tag: text-generation
一個小型中英文(雙語)預訓練語言模型。
使用在中英文維基百科上訓練的 BPE Tokenizer,詞表大小為32k。
https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki