请问你们在魔搭及以这里的ChatWithBuddy是哪个版本?是fp16还是bits4

#2
by sqhua - opened

我用过ollama上的openbuddy-llama3-8b-v21.1-8k,感觉效果差很多

OpenBuddy org

8b的4bit量化后,性能损失蛮严重,性能可能跟4b差不多,也许GPTQ会好一些

OpenBuddy org

demo是bf16的原版

@terrencefm 大神能不能帮忙再在ollama上传bf16,Q8,Q6的版本?

从资料来看,Q4性能掉了一大截 https://zhuanlan.zhihu.com/p/694888617

OpenBuddy org

可以用llama.cpp在本地制作的,我也是用macbook air来量化的,速度也很快。

恩,我最近按ollama的教程在WSL里安装了相关工具,试着转换了一个小一些的模型,发现似乎没想象中复杂,谢谢了。

sqhua changed discussion status to closed

Sign up or log in to comment