IlyaGusev/saiga_mistral_7b_gguf · saiga_mistral_7b_q8_0.gguf отвечает медленно.

Можно ускорить.

Первое что ускорить любую модель это используй нормальное GPU минимум с 8 гб памятью, на твоей карте будет +- генерация на уровне 5-8 токенов в секунду на 7B, а то и меньше.
в коде ты не реализовал совместное использование памяти GPU+ с обычной ОЗУ процессора.
Также надо добавить mlock чтобы OC не отсекало использование памяти.
Так что проблема не в самой модели, а в твоей реализации ее использования.

для теста можешь взять туже LM Studio - https://lmstudio.ai/
и проверить эту модель на своем железе.
Там все сделано для хомячков без кода.