--- license: cc-by-nc-sa-4.0 --- 原始模型:https://huggingface.co/SakuraLLM/Sakura-13B-Qwen2beta-v0.9 4Bit AWQ量化,未测试,不建议使用。 GroupSize=64 vLLM双卡推理不兼容AWQ,查ISSUE说好像量化时GroupSize设置为64可以解决。