Text Generation
Transformers
Safetensors
qwen2
conversational
text-generation-inference
Inference Endpoints

请教LongBench-v2上评测时输出异常问题

#2
by AyongZheng - opened

对于同一个输入:{"_id": "66f36490821e116aacb2cc22", ..., "question": "According to the report, how to promote the construction of smart courts?", ...},
使用Qwen2.5-72B-Instruct推理时返回
"response": "The correct answer is (A) Through technology empowerment, change the way of working and improve office efficiency."
使用Qwen2.5-7B-LongPO-128K推理时返回
"response": "Thead---c---c-c-a\nde\ndbc-dee-0cb--a0cbad\n The-adad-dca-ca---c8-c-dede-0cd00a\n-S\n\n-\nd-d\n-\n0cb \n--\n \n \ndb the the following options: 1. The number of people who like chocolate ice cream is the most most 2 2 2: 2. 2 flavor 2 2. 2 is 2 2 2 flavors 2 2 options: 2. 2 2"
这其中固然存在模型参数量的差异,但是看Qwen2.5-7B-LongPO-128K的response像是出了问题,所以想请教下配置上有没有需要特别注意的地方(p.s.: 使用几十个token输入时模型回复是正常的)

This comment has been hidden (marked as Spam)
AyongZheng changed discussion status to closed
AyongZheng changed discussion status to open
Language Technology Lab at Alibaba DAMO Academy org
edited 16 days ago

Hi, 感谢关注。
应该没有什么特别需要设置的地方,注意rope theta load正确并且apply chat format就可以了,然后Longbench有个model2maxlen的map,注意follow原始的setting修改到120000。我按照这样的setting跑了Qwen-2.5-LongPO-128K, 在LongBench v2上的结果如下:

Overall Easy Hard Short Medium Long
w/o CoT 32.6 32.3 32.8 36.7 33.5 24.1
w/ CoT 35.4 44.3 29.9 41.7 33.5 28.7

应该是比较impressive的结果了,可供参考。注意longbench v2原始的eval代码由于使用了多线程可能会引入随机性导致每次运行结果不同 https://github.com/THUDM/LongBench/issues/94#issuecomment-2601354113

Hi, 感谢关注。
应该没有什么特别需要设置的地方,注意rope theta load正确并且apply chat format就可以了,然后Longbench有个model2maxlen的map,注意follow原始的setting修改到120000。我按照这样的setting跑了Qwen-2.5-LongPO-128K, 在LongBench v2上的结果如下:

Overall Easy Hard Short Medium Long
w/o CoT 32.6 32.3 32.8 36.7 33.5 24.1
w/ CoT 35.4 44.3 29.9 41.7 33.5 28.7

应该是比较impressive的结果了,可供参考。注意longbench v2原始的eval代码由于使用了多线程可能会引入随机性导致每次运行结果不同 https://github.com/THUDM/LongBench/issues/94#issuecomment-2601354113

请问“rope theta load正确”是需要设置什么吗?我没有对theta信息做修改,用的官方代码直接加载的模型,vllm serve + client.chat.completions.create 的方式应该不需要我们使用apply chat format来构造输入。

Language Technology Lab at Alibaba DAMO Academy org

为了避免随机性我没有使用vllm而是直接hf.generate,但只要指定--trust-remote-code后应该不需要修改任何东西就可以使用vllm serving。如果你依然遇到问题可以post你运行的指令,我有空时候可以测一下。

Language Technology Lab at Alibaba DAMO Academy org

以及可以提供一下vllm版本等环境信息。

Language Technology Lab at Alibaba DAMO Academy org

Hi 我在vllm==0.6.4上同样可以获得正常输出,Qwen2.5-7B-LongPO的overall score测出是33.0,你可以考虑check下你的config或者更新vllm版本试试,如果有问题可以再open this comment.

Guanzheng changed discussion status to closed

Hi 我在vllm==0.6.4上同样可以获得正常输出,Qwen2.5-7B-LongPO的overall score测出是33.0,你可以考虑check下你的config或者更新vllm版本试试,如果有问题可以再open this comment.

麻烦您了,我后来使用vllm==0.5.4也能正常跑通了,您这个使用vllm推出的33.0是w/o CoT还是w/ CoT呀?

Language Technology Lab at Alibaba DAMO Academy org
edited 13 days ago

Hi 我在vllm==0.6.4上同样可以获得正常输出,Qwen2.5-7B-LongPO的overall score测出是33.0,你可以考虑check下你的config或者更新vllm版本试试,如果有问题可以再open this comment.

麻烦您了,我后来使用vllm==0.5.4也能正常跑通了,您这个使用vllm推出的33.0是w/o CoT还是w/ CoT呀?

w/o CoT. 但每次跑可能会有不同结果,建议使用vllm offline or hf generate (我第一版给出的结果),那个是可复现的。

Hi 我在vllm==0.6.4上同样可以获得正常输出,Qwen2.5-7B-LongPO的overall score测出是33.0,你可以考虑check下你的config或者更新vllm版本试试,如果有问题可以再open this comment.

麻烦您了,我后来使用vllm==0.5.4也能正常跑通了,您这个使用vllm推出的33.0是w/o CoT还是w/ CoT呀?

w/o CoT. 但每次跑可能会有不同结果,建议使用vllm offline or hf generate (我第一版给出的结果),那个是可复现的。

我这次还是使用的vllm online的方式,vllm==0.5.4复现出了LongBench-v2的结果,Overall上w/o CoT=31,w/ CoT=35.4,基本一致,谢谢您的支持🙏

Your need to confirm your account before you can post a new comment.

Sign up or log in to comment