firefly-llama2-13b模型,目前在Open LLM排行榜上,以62分的成绩,在所有13B模型中排名第三,且仅比榜首略低0.5分。
该模型是个英文模型,仅使用英文数据训练,未针对中文扩充词表
值得注意的是,我们采用了qlora技术,比其他排名前列的模型,需要更少的训练资源,24G的显卡即可训练百亿模型。
训练代码以及更多细节,欢迎关注我们的开源中文大模型项目Firefly, 以及公众号【YeungNLP】
Open LLM Leaderboard Evaluation Results
Detailed results can be found here
Metric | Value |
---|---|
Avg. | 52.25 |
ARC (25-shot) | 59.13 |
HellaSwag (10-shot) | 81.99 |
MMLU (5-shot) | 55.49 |
TruthfulQA (0-shot) | 51.57 |
Winogrande (5-shot) | 74.66 |
GSM8K (5-shot) | 11.22 |
DROP (3-shot) | 31.69 |