关于训练数据

by lsf1000 - opened Apr 3

Apr 3

关注大佬的stella模型很久了，请问
1.能方便透露下你训练的数据集大概是什么量级的呢，是介绍上说的亿级别样本量吗？
2.大概llm生成的和收集的开源数据集的比例占比多少？我看了下，其实开源的部分数据集质量也不是都很好的。
3.之前你开源过一版stella的训练框架，迭代的训练不同的 loss，我觉得非常棒。但是自己尝试下来，检索这个任务的效果不太好，只能单独训练in_batch_loss才行，请问训练检索的loss又啥技巧吗？
问题有点多，希望大佬能回答一下上面问题中可以透露的点，非常感谢！

infgrad

StellaEncoder org Apr 8

是的训练数据达到上亿，但是用的不是对比学习，后续会开源全部技术细节
llm生成的数据不多，比例很小，至于质量问题，只能说家境贫寒，花钱的llm造的数据肯定效果更好
对于继续训练，我的建议都是对比学习，然后为了防止灾难性遗忘，要么给参数加个L2约束，要么把新模型权重以一定权重加到base model上

lsf1000

Apr 8

非常感谢大佬的回答！
再请教一个问题，这里的亿级别数据，是很大部分用来做了预训练吗？之前看过你的博客，代码只是微调，应该不需要这么大的数据量？这次v3的预训练模型是用这个亿级别数据训练的吗？

LH0521

Apr 17

关注大佬的stella模型很久了，请问
1.能方便透露下你训练的数据集大概是什么量级的呢，是介绍上说的亿级别样本量吗？
2.大概llm生成的和收集的开源数据集的比例占比多少？我看了下，其实开源的部分数据集质量也不是都很好的。
3.之前你开源过一版stella的训练框架，迭代的训练不同的 loss，我觉得非常棒。但是自己尝试下来，检索这个任务的效果不太好，只能单独训练in_batch_loss才行，请问训练检索的loss又啥技巧吗？
问题有点多，希望大佬能回答一下上面问题中可以透露的点，非常感谢！

想请教下"提到亿级别样本量"的介绍是在哪呢？可以分享下链接吗，非常感谢
另外"上亿"指的是(q, doc)的数据量还是token的数据呢

谢谢

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment