Step 1 | loss:0.9819899201393127 lr:2e-05 tokens_per_second_per_gpu:7.734699300633465 grad_norm:DTensor(local_tensor=588.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 2 | loss:0.10344056785106659 lr:2e-05 tokens_per_second_per_gpu:24.03684223214773 grad_norm:DTensor(local_tensor=21.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 3 | loss:0.14387205243110657 lr:2e-05 tokens_per_second_per_gpu:31.60882780035777 grad_norm:DTensor(local_tensor=38.25, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 4 | loss:0.10579227656126022 lr:2e-05 tokens_per_second_per_gpu:31.745860419194234 grad_norm:DTensor(local_tensor=16.5, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 5 | loss:0.04224634915590286 lr:2e-05 tokens_per_second_per_gpu:31.68598594235708 grad_norm:DTensor(local_tensor=9.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 6 | loss:0.09355802088975906 lr:2e-05 tokens_per_second_per_gpu:31.634265476783963 grad_norm:DTensor(local_tensor=9.5625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 7 | loss:0.04229458421468735 lr:2e-05 tokens_per_second_per_gpu:31.291392042111845 grad_norm:DTensor(local_tensor=21.25, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 8 | loss:0.06167937070131302 lr:2e-05 tokens_per_second_per_gpu:31.548174619281138 grad_norm:DTensor(local_tensor=13.3125, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 9 | loss:0.07292375713586807 lr:2e-05 tokens_per_second_per_gpu:32.565462605175746 grad_norm:DTensor(local_tensor=13.9375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 10 | loss:0.09643712639808655 lr:2e-05 tokens_per_second_per_gpu:32.86753105233543 grad_norm:DTensor(local_tensor=14.5, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 11 | loss:0.03650011122226715 lr:2e-05 tokens_per_second_per_gpu:29.188105634872123 grad_norm:DTensor(local_tensor=8.8125, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 12 | loss:0.08273939788341522 lr:2e-05 tokens_per_second_per_gpu:32.55047762083378 grad_norm:DTensor(local_tensor=3.84375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 13 | loss:0.06700858473777771 lr:2e-05 tokens_per_second_per_gpu:31.95107795260042 grad_norm:DTensor(local_tensor=8.25, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 14 | loss:0.03902854397892952 lr:2e-05 tokens_per_second_per_gpu:31.690385620952814 grad_norm:DTensor(local_tensor=6.65625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 15 | loss:0.05187463015317917 lr:2e-05 tokens_per_second_per_gpu:32.12924024991362 grad_norm:DTensor(local_tensor=12.75, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 16 | loss:0.09306984394788742 lr:2e-05 tokens_per_second_per_gpu:32.014480291596435 grad_norm:DTensor(local_tensor=16.75, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 17 | loss:0.06169477477669716 lr:2e-05 tokens_per_second_per_gpu:31.980235291711175 grad_norm:DTensor(local_tensor=9.4375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 18 | loss:0.05085933953523636 lr:2e-05 tokens_per_second_per_gpu:31.55819874100472 grad_norm:DTensor(local_tensor=5.4375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 19 | loss:0.027735000476241112 lr:2e-05 tokens_per_second_per_gpu:32.56772044279201 grad_norm:DTensor(local_tensor=12.5625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 20 | loss:0.02117377519607544 lr:2e-05 tokens_per_second_per_gpu:31.223482446635142 grad_norm:DTensor(local_tensor=9.1875, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 21 | loss:0.04413335770368576 lr:2e-05 tokens_per_second_per_gpu:31.414342552450947 grad_norm:DTensor(local_tensor=8.75, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 22 | loss:0.03632764890789986 lr:2e-05 tokens_per_second_per_gpu:31.957969478792684 grad_norm:DTensor(local_tensor=6.9375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 23 | loss:0.032768961042165756 lr:2e-05 tokens_per_second_per_gpu:31.70802074489129 grad_norm:DTensor(local_tensor=15.375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 24 | loss:0.11937770992517471 lr:2e-05 tokens_per_second_per_gpu:32.078262252964 grad_norm:DTensor(local_tensor=13.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 25 | loss:0.01887187734246254 lr:2e-05 tokens_per_second_per_gpu:32.6166871421247 grad_norm:DTensor(local_tensor=8.0625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 26 | loss:0.04282096028327942 lr:2e-05 tokens_per_second_per_gpu:31.148587547185134 grad_norm:DTensor(local_tensor=4.34375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 27 | loss:0.026883212849497795 lr:2e-05 tokens_per_second_per_gpu:32.18356570564285 grad_norm:DTensor(local_tensor=3.65625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 28 | loss:0.038033705204725266 lr:2e-05 tokens_per_second_per_gpu:30.388504363190535 grad_norm:DTensor(local_tensor=13.875, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 29 | loss:0.02629825845360756 lr:2e-05 tokens_per_second_per_gpu:32.53178649500475 grad_norm:DTensor(local_tensor=12.1875, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 30 | loss:0.05449863150715828 lr:2e-05 tokens_per_second_per_gpu:30.88258585346185 grad_norm:DTensor(local_tensor=7.1875, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 31 | loss:0.03493243455886841 lr:2e-05 tokens_per_second_per_gpu:31.321164259033 grad_norm:DTensor(local_tensor=6.4375, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 32 | loss:0.026349157094955444 lr:2e-05 tokens_per_second_per_gpu:30.229063666872896 grad_norm:DTensor(local_tensor=14.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 33 | loss:0.05750144273042679 lr:2e-05 tokens_per_second_per_gpu:33.35898359731796 grad_norm:DTensor(local_tensor=5.65625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 34 | loss:0.020532047376036644 lr:2e-05 tokens_per_second_per_gpu:30.774099511532626 grad_norm:DTensor(local_tensor=6.15625, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),)) 
Step 35 | loss:0.050430480390787125 lr:2e-05 tokens_per_second_per_gpu:31.671692720646266 grad_norm:DTensor(local_tensor=8.0, device_mesh=DeviceMesh([0, 1, 2, 3, 4, 5, 6, 7]), placements=(_NormPartial(reduce_op='sum', norm_type=2.0),))