推理时,prompt的显存占用太大了

#10
by iheycc - opened

Qwen1.5全系列支持32k 上下文,非常赞

在测试长prompt问答,发现一次推理占用的显存非常大,直接导致报错显存不足。尝试缩短 prompt 长度,依然很难避免问题

作为对比,chatglm3-6b-32k 就控制的不错。举例:模型本身 12G,一次输入16000的token,内存占用达到 21G,还能成功完成推理

Sign up or log in to comment