msu-rcc-lair/ruadapt_solar_10.7_darulm_unigram_proj_init_twostage_v1

Apr 30

Здравствуйте! не сталкивались ли вы с проблемой скорости инференса модели ? в моих экспериментах, дообученная с lora модель работает в +-10 раз медленнее чем аналогично тюненный оригинальный solar 10.7B (генерация 256 символов и длина промпта в среднем 3000 токенов)

RefalMachine

MSU RCC LAIR org May 1

Добрый день! Если я правильно понял, Вы сравниваете модель с lora адаптером без мержа с моделью, которая либо училась без lora, либо уже после слияния с адаптером. Если это так, проверьте скорость инференса смержив предварительно модель.
Скрипт для для этого можно взять у Ильи Гусева, например, https://github.com/IlyaGusev/rulm/blob/master/self_instruct/src/tools/merge_lora.py. Но обратите внимание на torch_dtype, текущая ruadapt_solar модель в fp16, а не bf16.

RefalMachine changed discussion status to closed 20 days ago

msu-rcc-lair
/

ruadapt_solar_10.7_darulm_unigram_proj_init_twostage_v1

Inference speed