模型太耗内存了，有量化版本吗？flashatt是不是可以关闭，对显卡限制太多

by fukai - opened Jun 17, 2024

Discussion

fukai

Jun 17, 2024

模型太耗内存了，有量化版本吗？flashatt是不是可以关闭，对显卡限制太多

SteinsHead

Jun 18, 2024

模型太耗内存了，有量化版本吗？flashatt是不是可以关闭，对显卡限制太多

请问下这边使用的时候内存消耗大概多少啊，我也准备用这个模型，想做个参考，感谢

xxllp

Jun 19, 2024

早日来个量化版本

izhx

Alibaba-NLP org Jun 19, 2024

•

edited Jun 19, 2024

模型太耗内存了，有量化版本吗？flashatt是不是可以关闭，对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能，不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 base 和 large 版本，我们也会马上发布多语言的小模型。

XYZliang

Jun 20, 2024

模型太耗内存了，有量化版本吗？flashatt是不是可以关闭，对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能，不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 base 和 large 版本，我们也会马上发布多语言的小模型。

不知道后续会不会基于 qwen2 72b 模型进行训练的版本，进一步探索性能的上限？

sunzx0810

Jun 20, 2024

模型太耗内存了，有量化版本吗？flashatt是不是可以关闭，对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能，不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 base 和 large 版本，我们也会马上发布多语言的小模型。

那量化版本有测试过可不可以使用吗

izhx

Alibaba-NLP org Jun 22, 2024

模型太耗内存了，有量化版本吗？flashatt是不是可以关闭，对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能，不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 base 和 large 版本，我们也会马上发布多语言的小模型。

不知道后续会不会基于 qwen2 72b 模型进行训练的版本，进一步探索性能的上限？

想搞，但显卡数量不太支持 😂

izhx changed discussion status to closed Jun 22, 2024

izhx changed discussion status to open Jun 22, 2024

izhx

Alibaba-NLP org Jun 22, 2024

模型太耗内存了，有量化版本吗？flashatt是不是可以关闭，对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能，不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 base 和 large 版本，我们也会马上发布多语言的小模型。

那量化版本有测试过可不可以使用吗

感谢，下周试一下，还没搞过量化。

sqlify

Aug 5, 2024

模型太耗内存了，有量化版本吗？flashatt是不是可以关闭，对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能，不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 base 和 large 版本，我们也会马上发布多语言的小模型。

那量化版本有测试过可不可以使用吗

感谢，下周试一下，还没搞过量化。

我们测试过，包括gte-qwen2-1.5B，在我们的场景中，效果挺惊艳的。
但是模型太大，没法实际应用部署。
希望能出不同的量化版本，gptq，awq等

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment