--- datasets: - wikipedia language: - zh - en tags: - chinese - english inference: parameters: max_new_tokens: 50 do_sample: true widget: - text: 粉圓,在珍珠奶茶中也稱波霸或珍珠,是一種 pipeline_tag: text-generation --- # LLaMA Chinese 81M 一個小型中英文(雙語)預訓練語言模型。 ## Training Dataset - 中文維基百科(20230601) - 英文維基百科(20230601) ## Tokenizer 使用重新在中英文語料上訓練的 BPE Tokenizer,擁有較佳的分詞效果與邊解碼效率。 > https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki