#多机多卡训练 | |
#--nnodes=1:3 表示 使用一到三台机器 弹性分配资源 | |
#--nnodes=<最小节点数>:<最大节点数> | |
#--nproc_per_node=每台机器上可用的GPU数 | |
#--rdzv_endpoint=主节点(最先启动的)ip:端口号 | |
#其他不需要变 | |
#注意: 此版本的分布式训练是基于数据并行的,多机多卡相当于开更大的batchsize,此时epoch迭代速度会增加, | |
#但由于 该版本的代码中 保存模型是按照global step来计算的,所以会出现的效果就是 : 保存模型的时间不会有明显加速, | |
#但每次保存模型时epoch都比之前迭代了更多次,也就是 “更少的步数,实现更好的效果” | |
#************************* | |
# torchrun \ | |
# --nnodes=1:3\ | |
# --nproc_per_node=2\ | |
# --rdzv_id=1\ | |
# --rdzv_backend=c10d\ | |
# --rdzv_endpoint="inspur1:8880"\ | |
# train_ms.py | |
#**************************** | |
#多卡训练 | |
#nproc_per_node = 机器上可用的GPU数 | |
#************************* | |
torchrun \ | |
--nnodes=1\ | |
--nproc_per_node=2\ | |
train_ms.py | |
#************************* | |