为什么加载模型过程中直接出现了显存爆炸的情况?

#4
by neumyor - opened

使用24GB的RTX4090加载模型时出现显存溢出,但是这是不可能的,此时通过nvidia-smi查看,无其他显存占用,仅当前进程就申请超过24GB显存,非常不合理,请问有人出现相同情况吗?

from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained('GanymedeNil/text2vec-large-chinese')
model = BertModel.from_pretrained('GanymedeNil/text2vec-large-chinese').to('cuda:0')

同样遇到了这个问题

是否需要量化压缩下?

Sign up or log in to comment