这个模型和llama2的关系和差异是啥

#1
by songt - opened

vocab是否做了中文的适配
是否做了中文的二次预训练、SFT

songt changed discussion status to closed
songt changed discussion status to open
OpenBuddy org

扩充了接近6000个CJK字词。
为了尽可能保留模型原有知识,无二次预训练,基于 llama2-13b 进行 SFT,使用了 一百万样本数的多语言多轮对话数据集。

扩充了接近6000个CJK字词。
为了尽可能保留模型原有知识,无二次预训练,基于 llama2-13b 进行 SFT,使用了 一百万样本数的多语言多轮对话数据集。

这个信息挺重要的,希望可以放到model card或github上

@terrencefm 貌似我看config.json里面还是37k

不对,我看错了,加上了6k是这么多

楼主是说,扩充了此表但是没有在此pretrain吗?那resize embedding之后岂不是权重都是随机权重了?这应该很难直接sft吧

OpenBuddy org

楼主是说,扩充了此表但是没有在此pretrain吗?那resize embedding之后岂不是权重都是随机权重了?这应该很难直接sft吧

我们在SFT过程中调整的token embedding,目前来看效果还行

Sign up or log in to comment