1.8b系列大海捞针的模型对比

#2
by chaochaoli - opened

"有效支持20万字超长上下文:模型在20万字长输入中几乎完美地实现长文“大海捞针”,而且在 LongBench 和 L-Eval 等长文任务中的表现也达到开源模型中的领先水平。"====>

如model card所描述,1.8b模型在20w字的大海捞针中几乎完美实现,我想了解下这块有详细的评测结果吗?还有就是base、sft和chat版本在这块能力上的差异是怎么样的?哪个会比较好?感谢。祝好。

internlm2 好像没有paper吧,只能社区自己复现

Sign up or log in to comment