Inference speed

#2
by alegchenko - opened

Здравствуйте! не сталкивались ли вы с проблемой скорости инференса модели ? в моих экспериментах, дообученная с lora модель работает в +-10 раз медленнее чем аналогично тюненный оригинальный solar 10.7B (генерация 256 символов и длина промпта в среднем 3000 токенов)

MSU RCC LAIR org

Добрый день! Если я правильно понял, Вы сравниваете модель с lora адаптером без мержа с моделью, которая либо училась без lora, либо уже после слияния с адаптером. Если это так, проверьте скорость инференса смержив предварительно модель.
Скрипт для для этого можно взять у Ильи Гусева, например, https://github.com/IlyaGusev/rulm/blob/master/self_instruct/src/tools/merge_lora.py. Но обратите внимание на torch_dtype, текущая ruadapt_solar модель в fp16, а не bf16.

RefalMachine changed discussion status to closed

Sign up or log in to comment