推理相比量化前更慢了
试了一下,https://huggingface.co/THUDM/chatglm-6b-int8 下【代码调用】中的例子
量化版(int8)相比量化前推理时间增加了一倍
以下是环境配置
显卡 p40
cuda
NVIDIA-SMI 460.73.01 Driver Version: 460.73.01 CUDA Version: 11.2
python版本
3.8.0
python 包
Package Version
accelerate 0.17.1
nvidia-cublas-cu11 11.10.3.66
nvidia-cuda-cupti-cu11 11.7.101
nvidia-cuda-nvrtc-cu11 11.7.99
nvidia-cuda-runtime-cu11 11.7.99
nvidia-cudnn-cu11 8.5.0.96
nvidia-cufft-cu11 10.9.0.58
nvidia-curand-cu11 10.2.10.91
nvidia-cusolver-cu11 11.4.0.1
nvidia-cusparse-cu11 11.7.4.91
nvidia-nccl-cu11 2.14.3
nvidia-nvtx-cu11 11.7.91
tokenizers 0.13.2
torch 2.0.0
torchvision 0.15.1
transformers 4.27.1
我这边直接不回复。。有解决办法吗
量化后的模型,只能保证显存占用降低,但推理时延变长。因为在推理的时候,需要降int8转化为fp16或者fp32,再进行计算,所以时延升高。