模型推理很慢什么原因

#9
by wangchenkang2023 - opened

在v100_32G卡上进行部署推理,加载模型用了半精度.half(), 在推理过程中很慢,30分钟都没结果,我输入的token长度为1700多,是想实现text2SQL的能力

后面有解决或者缓解吗,我在A800上使用也有类似的问题,推理非常慢

用的hf transformer吧,那是巨慢的,要用exllama+flash attention才能吃满cuda

用的hf transformer吧,那是巨慢的,要用exllama+flash attention才能吃满cuda

对,是hf transformer,GPU占用只有一半,我看官方的示例用的是transformer

用的hf transformer吧,那是巨慢的,要用exllama+flash attention才能吃满cuda

对,是hf transformer,GPU占用只有一半,我看官方的示例用的是transformer

呵呵了,hf transformer就是乌龟爬

Sign up or log in to comment