metadata
datasets:
- HuggingFaceFW/fineweb
- erhwenkuo/c4-chinese-zhtw
- erhwenkuo/wikipedia-zhtw
- p208p2002/wudao
- p208p2002/NDLTD-T10-90-111
- codeparrot/github-code-clean
language:
- en
- zh
Llama 3 zhtw
在 Llama 3 上試驗中文 Continue Pretraining (CP),共計訓練 800M tokens。
由於中文預訓練語料品質還有改進空間,CP 後表現未能超越原版 Llama 3,我們比較幾個開源社群訓練的中文 Llama 3 也有類似狀況。
在英文方面 LLaMA 3 zhtw 使用 FineWeb,使得 MMLU 表現高於其他中文CP模型,能力與原版 LLaMA 3 持平。
Benchmarks
Models | ↑ TMMLU+ (ACC) | CMMLU (ACC) | MMLU (ACC) | |
---|---|---|---|---|
TC, Knowledge | CN, Knowledge | EN, Knowledge | ||
5 shot | 5 shot | 5 shot | ||
Yi-6B | 6B | 49.63 | 75.53 | 65.35 |
Qwen-7B | 7B | 42.84 | 73.1 | 61.00 |
Meta-Llama-3-8B | 8B | 41.97 | 50.8 | 65.17 |
p208p2002/llama-3-zhtw-8B | 8B | 41.84 | 50.6 | 65.31 |
Breeze-7B-Base-v0_1 | 7B | 40.35 | 44.05 | 61.63 |
hfl/llama-3-chinese-8b | 8B | 39.64 | 50.9 | 61.1 |
Recipe
Datasets
Dataset | Lang | Weight |
---|---|---|
FineWeb | en | 0.35 |
Wudao | zh-cn | 0.1 |
C4Tw | zh-tw | 0.1 |
WikiZhTw | zh-tw | 0.15 |
NdltdT10 | zh-tw | 0.1 |
GitHubMarkDown | code | 0.1 |
GitHubPython | code | 0.1 |
Hyper Parameters
- Learning Rate: 1e-7
- Global Batch Size: 60
- Sequence Length: 8192