Quantization?

#1
by ffedericoni - opened

Grazie per questi modelli in italiano.
Pensate di fornire versioni più piccole, ad esempio quantizzate a 4 bit nei formati GGUF/AWQ?

SWAP Research Group@UNIBA org

Ciao, attualmente puoi caricare il modello in versione quantizzata usando Bitsandbytes (https://huggingface.co/blog/4bit-transformers-bitsandbytes). Probabilmente rilasceremo delle versioni già quantizzate prossimamente. Nel frattempo se sei interessato al topic ti consiglio di seguire la guida di llama.cpp (https://github.com/ggerganov/llama.cpp)

Sign up or log in to comment