我发现在训练过程中,在 for idx, decoder_layer in …这个循环中,每次执行显存都会增加0.1G到0.2G。请问这是为什么呢?如何创建一个模型,但是运行两个不同的inputs_ids,也会出现这个问题。请问同一个模型,只是走一下前向传播为什么也会显存增加?请问有什么方式可以避免么?
· Sign up or log in to comment