Text Generation
Transformers
PyTorch
Chinese
bloom
Inference Endpoints
text-generation-inference

A100大概会占用多少显存呢?

#3
by heyday111 - opened

求问要什么样的配置可以稳定跑起来?

只是推理的话8张A100就可以

xyz-nlp changed discussion status to closed

一定要8张A100才能推理吗?每张80G,显存得全部用到嘛?

请问调用的时候哪一个参数表示多卡推理呢?

在加载模型的时候设置device_map="auto", 会默认调用Accelerate以PP方式进行自动分配

8张A100. 40G的可以推理吗? 请问模型可以量化加载吗,最小多大显存可以进行推理

8张A100. 40G的可以推理吗? 请问模型可以量化加载吗,最小多大显存可以进行推理

40G是不够的,如果需要量化需要自行将模型量化后再进行加载

8张40G的A100如果直接放是放不下,用deepspeed+zero3的方式offload一部分参数到cpu上是可以运行的。我的运行结果是:稳定运行时每张卡上占用36G显存左右,同时需要500-600G的内存,平均30分钟可以推理出16条结果。刚刚入门大模型,可能不是最优的方法,仅供大家参考。

Sign up or log in to comment