THUDM/chatglm-6b-int8 · 推理相比量化前更慢了

Jun 9, 2023

试了一下，https://huggingface.co/THUDM/chatglm-6b-int8 下【代码调用】中的例子
量化版(int8)相比量化前推理时间增加了一倍

以下是环境配置
显卡 p40

cuda
NVIDIA-SMI 460.73.01 Driver Version: 460.73.01 CUDA Version: 11.2

python版本
3.8.0

python 包
Package Version

accelerate 0.17.1
nvidia-cublas-cu11 11.10.3.66
nvidia-cuda-cupti-cu11 11.7.101
nvidia-cuda-nvrtc-cu11 11.7.99
nvidia-cuda-runtime-cu11 11.7.99
nvidia-cudnn-cu11 8.5.0.96
nvidia-cufft-cu11 10.9.0.58
nvidia-curand-cu11 10.2.10.91
nvidia-cusolver-cu11 11.4.0.1
nvidia-cusparse-cu11 11.7.4.91
nvidia-nccl-cu11 2.14.3
nvidia-nvtx-cu11 11.7.91
tokenizers 0.13.2
torch 2.0.0
torchvision 0.15.1
transformers 4.27.1

chenyi199927

Nov 25, 2023

我这边直接不回复。。有解决办法吗

louiss007

Nov 26, 2023

量化后的模型，只能保证显存占用降低，但推理时延变长。因为在推理的时候，需要降int8转化为fp16或者fp32，再进行计算，所以时延升高。