怎么自我认知还是deepseek?而且好像没有做快慢思考,无法自适应控制思考长度

#12
by user48271 - opened

02aeb7a6-af5d-4f2d-a4e5-19b6cbb4de9f

WeiboAI org

部分数学Thinking训练数据来自于互联网开源数据,里面可能混有各种来源,导致会有不同的身份输出。我们这项工作主要探索能把小模型的推理能力极限推到多远,很多其他因素没有独立优化,包括未单独针对身份认知做特别的处理以及快慢思考的自适应选择。

经常没思考完成就中断了,这个方向不错,希望继续改进。下次可以试试30b-a3b的。

WeiboAI org

感谢建议!尽管对于数学做过Long2Short的RL缩短了思考过程,但是思考链条仍然有点长,尤其对于高难度逻辑题目,可能缺省Max-Length要设置到60K到100K。

Sign up or log in to comment