关于训练数据

#8
by lsf1000 - opened

关注大佬的stella模型很久了,请问
1.能方便透露下你训练的数据集大概是什么量级的呢,是介绍上说的亿级别样本量吗?
2.大概llm生成的和收集的开源数据集的比例占比多少?我看了下,其实开源的部分数据集质量也不是都很好的。
3.之前你开源过一版stella的训练框架,迭代的训练不同的 loss,我觉得非常棒。但是自己尝试下来,检索这个任务的效果不太好,只能单独训练in_batch_loss才行,请问训练检索的loss又啥技巧吗?
问题有点多,希望大佬能回答一下上面问题中可以透露的点,非常感谢!

StellaEncoder org
  1. 是的训练数据达到上亿,但是用的不是对比学习,后续会开源全部技术细节
  2. llm生成的数据不多,比例很小,至于质量问题,只能说家境贫寒,花钱的llm造的数据肯定效果更好
  3. 对于继续训练,我的建议都是对比学习,然后为了防止灾难性遗忘,要么给参数加个L2约束,要么把新模型权重以一定权重加到base model上

非常感谢大佬的回答!
再请教一个问题,这里的亿级别数据,是很大部分用来做了预训练吗?之前看过你的博客,代码只是微调,应该不需要这么大的数据量?这次v3的预训练模型是用这个亿级别数据训练的吗?

关注大佬的stella模型很久了,请问
1.能方便透露下你训练的数据集大概是什么量级的呢,是介绍上说的亿级别样本量吗?
2.大概llm生成的和收集的开源数据集的比例占比多少?我看了下,其实开源的部分数据集质量也不是都很好的。
3.之前你开源过一版stella的训练框架,迭代的训练不同的 loss,我觉得非常棒。但是自己尝试下来,检索这个任务的效果不太好,只能单独训练in_batch_loss才行,请问训练检索的loss又啥技巧吗?
问题有点多,希望大佬能回答一下上面问题中可以透露的点,非常感谢!

想请教下"提到亿级别样本量"的介绍是在哪呢?可以分享下链接吗,非常感谢
另外"上亿"指的是(q, doc)的数据量还是token的数据呢

谢谢

Sign up or log in to comment