需要多大的显存?

#2
by cliuxinxin - opened

有没有朋友测试过,运行起来需要多少显存,随着长度的扩充,显存量的变化呢。

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University org

使用8卡A100 / H100 推理 1M长度,关于更低长度,可以参考github中的表格

使用8卡A100 / H100 推理 1M长度,关于更低长度,可以参考github中的表格

请问直接使用HF可以推1M长度吗?还是必须用VLLM

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University org

必须vLLM

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University org

目前主流的开源推理框架还没有针对1M长度进行深度优化,vLLM大概需要4*80G进行1M长度的推理(开启enable_chunked_prefill,虽然这会显著降低encode的速度)。相信未来随着主流开源推理框架的优化,1M的推理会越来越快。

zRzRzRzRzRzRzR changed discussion status to closed

Sign up or log in to comment