File size: 1,083 Bytes
38c013a
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
#多机多卡训练

#--nnodes=1:3 表示 使用一到三台机器 弹性分配资源
#--nnodes=<最小节点数>:<最大节点数>
#--nproc_per_node=每台机器上可用的GPU数
#--rdzv_endpoint=主节点(最先启动的)ip:端口号
#其他不需要变

#注意: 此版本的分布式训练是基于数据并行的,多机多卡相当于开更大的batchsize,此时epoch迭代速度会增加,
#但由于 该版本的代码中 保存模型是按照global step来计算的,所以会出现的效果就是 : 保存模型的时间不会有明显加速,
#但每次保存模型时epoch都比之前迭代了更多次,也就是 “更少的步数,实现更好的效果”

#*************************
# torchrun \
#     --nnodes=1:3\
#     --nproc_per_node=2\
#     --rdzv_id=1\
#     --rdzv_backend=c10d\
#     --rdzv_endpoint="inspur1:8880"\
#     train_ms.py
#****************************

#多卡训练
#nproc_per_node = 机器上可用的GPU数

#*************************
torchrun \
    --nnodes=1\
    --nproc_per_node=2\
    train_ms.py
#*************************