Text Generation
GGUF
Russian
conversational

Ускорение генерации

#4
by Sashkanik13 - opened

Привет Илья! Я использую модель model-q2_K.gguf, и генерация одного токена занимает около минуты. Может есть способ как-то ускорить модель?

Привет, это ненормально, нужно разбираться, почему так. Я бы начал с настроек билда llama.cpp.

Я компилировал так:

mkdir build
cd build
cmake .. -DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS
cmake --build . --config Release

А треды при запуске все используются?

Да, все 4

Sign up or log in to comment