这个IDEA-CCNL/Erlangshen-MegatronBert-1.3B模型有人在本地电脑上微调成功过吗?

#1
by jikehukai - opened

本地RTX3060 12G显存+16G内存,用了项目提供的脚本中的deepspeed_stage_3_offload策略,依然每次都报内存爆炸的错误,请问这个配置RTX3060 12G显存+16G内存是不是本来就无法对IDEA-CCNL/Erlangshen-MegatronBert-1.3B进行微调呢?

Fengshenbang-LM org

是的 这个配置不太够

Fengshenbang-LM org

本地RTX3060 12G显存+16G内存,用了项目提供的脚本中的deepspeed_stage_3_offload策略,依然每次都报内存爆炸的错误,请问这个配置RTX3060 12G显存+16G内存是不是本来就无法对IDEA-CCNL/Erlangshen-MegatronBert-1.3B进行微调呢?

不开启offload策略,我用的 A100-40G,batch_size=4, max_length=512。你可以把这两个参数调小一点

Sign up or log in to comment