模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

#3
by fukai - opened

模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

请问下这边使用的时候内存消耗大概多少啊,我也准备用这个模型,想做个参考,感谢

早日来个量化版本

Alibaba-NLP org
edited 3 days ago

模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 baselarge 版本,我们也会马上发布多语言的小模型。

模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 baselarge 版本,我们也会马上发布多语言的小模型。

不知道后续会不会基于 qwen2 72b 模型进行训练的版本,进一步探索性能的上限?

模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 baselarge 版本,我们也会马上发布多语言的小模型。

那量化版本有测试过可不可以使用吗

Sign up or log in to comment