推理相比量化前更慢了

#1
by luobotaxinghu - opened

试了一下,https://huggingface.co/THUDM/chatglm-6b-int8 下【代码调用】中的例子
量化版(int8)相比量化前推理时间增加了一倍

以下是环境配置
显卡 p40

cuda
NVIDIA-SMI 460.73.01 Driver Version: 460.73.01 CUDA Version: 11.2

python版本
3.8.0

python 包
Package Version


accelerate 0.17.1
nvidia-cublas-cu11 11.10.3.66
nvidia-cuda-cupti-cu11 11.7.101
nvidia-cuda-nvrtc-cu11 11.7.99
nvidia-cuda-runtime-cu11 11.7.99
nvidia-cudnn-cu11 8.5.0.96
nvidia-cufft-cu11 10.9.0.58
nvidia-curand-cu11 10.2.10.91
nvidia-cusolver-cu11 11.4.0.1
nvidia-cusparse-cu11 11.7.4.91
nvidia-nccl-cu11 2.14.3
nvidia-nvtx-cu11 11.7.91
tokenizers 0.13.2
torch 2.0.0
torchvision 0.15.1
transformers 4.27.1

我这边直接不回复。。有解决办法吗

量化后的模型,只能保证显存占用降低,但推理时延变长。因为在推理的时候,需要降int8转化为fp16或者fp32,再进行计算,所以时延升高。

Sign up or log in to comment