Ускорение генерации

by Sashkanik13 - opened Dec 18, 2023

Dec 18, 2023

Привет Илья! Я использую модель model-q2_K.gguf, и генерация одного токена занимает около минуты. Может есть способ как-то ускорить модель?

Owner Dec 28, 2023

Привет, это ненормально, нужно разбираться, почему так. Я бы начал с настроек билда llama.cpp.

Dec 29, 2023

Я компилировал так:

mkdir build
cd build
cmake .. -DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS
cmake --build . --config Release

Owner Dec 30, 2023

А треды при запуске все используются?

Dec 30, 2023

Да, все 4

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment