Text Generation
GGUF
Russian

saiga_mistral_7b_q8_0.gguf отвечает медленно.

#6
by Superchik - opened

Модель - saiga_mistral_7b_q8_0.gguf
Почему модель использует максимум 4 гб памяти? В требованиях прописано, что нужно 10 гб. Возможно из-за этого модель отвечает медленно.
С записью экрана 9 минут, но без записи 6-7 стабильно. Можно ли ускорить работу модели?

Ссылка на видео
Ссылка на код (interact_mistral_llamacpp.py)
Комплектующие пк

Можно ускорить.

Первое что ускорить любую модель это используй нормальное GPU минимум с 8 гб памятью, на твоей карте будет +- генерация на уровне 5-8 токенов в секунду на 7B, а то и меньше.
в коде ты не реализовал совместное использование памяти GPU+ с обычной ОЗУ процессора.
Также надо добавить mlock чтобы OC не отсекало использование памяти.
Так что проблема не в самой модели, а в твоей реализации ее использования.

для теста можешь взять туже LM Studio - https://lmstudio.ai/
и проверить эту модель на своем железе.
Там все сделано для хомячков без кода.

Sign up or log in to comment