训练过程显存增加的问题

#28
by Jin816 - opened

我发现在训练过程中,在 for idx, decoder_layer in …这个循环中,每次执行显存都会增加0.1G到0.2G。请问这是为什么呢?
如何创建一个模型,但是运行两个不同的inputs_ids,也会出现这个问题。请问同一个模型,只是走一下前向传播为什么也会显存增加?
请问有什么方式可以避免么?

Sign up or log in to comment