如果这个是用Bitsandsbyte的NF4量化的,能否直接在这个基础上用qlora继续训练?

#1
by bash99 - opened

还是建议在原始16bit模型上做训练然后再次量化?

另外这个量化是不是没有GPTQ推理加速的效果(对于llama模型非常明显)。

Sign up or log in to comment