需要多大的显存?
#2
by
cliuxinxin
- opened
有没有朋友测试过,运行起来需要多少显存,随着长度的扩充,显存量的变化呢。
使用8卡A100 / H100 推理 1M长度,关于更低长度,可以参考github中的表格
使用8卡A100 / H100 推理 1M长度,关于更低长度,可以参考github中的表格
请问直接使用HF可以推1M长度吗?还是必须用VLLM
必须vLLM
目前主流的开源推理框架还没有针对1M长度进行深度优化,vLLM大概需要4*80G进行1M长度的推理(开启enable_chunked_prefill,虽然这会显著降低encode的速度)。相信未来随着主流开源推理框架的优化,1M的推理会越来越快。
zRzRzRzRzRzRzR
changed discussion status to
closed