训练数据构造

#6
by LH0521 - opened

hi,您好,想请教下训练数据的构造

  1. 请问知识类问题-文档、闲聊类问题-问题是如何收集和构造的呢?
  2. 二者的比例是如何设置的呢?
  3. 知识类数据有具体的领域分布吗?
    谢谢
  1. 我们团队是做语音助手的,在前LLM时代,检索式问答占的比重很大,因此累积了很多闲聊\知识类语料。
  2. 没有做很充分的实验,就简单的1:1开整了
  3. 没有很具体的领域,可能的先验是,在语音助手场景下相对频繁的问答
  1. 我们团队是做语音助手的,在前LLM时代,检索式问答占的比重很大,因此累积了很多闲聊\知识类语料。
  2. 没有做很充分的实验,就简单的1:1开整了
  3. 没有很具体的领域,可能的先验是,在语音助手场景下相对频繁的问答
    感谢回复,谢谢
LH0521 changed discussion status to closed

Sign up or log in to comment