File size: 304 Bytes
96980b7
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
# Baby LLaMA Chinese 81M
一個小型中文預訓練語言模型。

## Training Dataset
- 中文維基百科(20230601)
- 英文維基百科(20230601)

## Tokenizer
使用在中英文維基百科上訓練的 BPE Tokenizer,詞表大小為32k。
> https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki