Inference speed
#2
by
alegchenko
- opened
Здравствуйте! не сталкивались ли вы с проблемой скорости инференса модели ? в моих экспериментах, дообученная с lora модель работает в +-10 раз медленнее чем аналогично тюненный оригинальный solar 10.7B (генерация 256 символов и длина промпта в среднем 3000 токенов)
Добрый день! Если я правильно понял, Вы сравниваете модель с lora адаптером без мержа с моделью, которая либо училась без lora, либо уже после слияния с адаптером. Если это так, проверьте скорость инференса смержив предварительно модель.
Скрипт для для этого можно взять у Ильи Гусева, например, https://github.com/IlyaGusev/rulm/blob/master/self_instruct/src/tools/merge_lora.py. Но обратите внимание на torch_dtype, текущая ruadapt_solar модель в fp16, а не bf16.
RefalMachine
changed discussion status to
closed