Spaces:

lafi23333
/

kn

Sleeping

kn / run_MnodesAndMgpus.sh

Upload 191 files

9b1761d 6 months ago

No virus

1.08 kB

	#多机多卡训练

	#--nnodes=1:3 表示使用一到三台机器弹性分配资源
	#--nnodes=<最小节点数>:<最大节点数>
	#--nproc_per_node=每台机器上可用的GPU数
	#--rdzv_endpoint=主节点（最先启动的）ip:端口号
	#其他不需要变

	#注意：此版本的分布式训练是基于数据并行的，多机多卡相当于开更大的batchsize，此时epoch迭代速度会增加,
	#但由于该版本的代码中保存模型是按照global step来计算的，所以会出现的效果就是：保存模型的时间不会有明显加速，
	#但每次保存模型时epoch都比之前迭代了更多次,也就是 “更少的步数，实现更好的效果”

	#*************************
	# torchrun \
	# --nnodes=1:3\
	# --nproc_per_node=2\
	# --rdzv_id=1\
	# --rdzv_backend=c10d\
	# --rdzv_endpoint="inspur1:8880"\
	# train_ms.py
	#****************************

	#多卡训练
	#nproc_per_node = 机器上可用的GPU数

	#*************************
	torchrun \
	--nnodes=1\
	--nproc_per_node=2\
	train_ms.py
	#*************************