Remove correctness check from PP tests, focus on deadlock detection [skip-build]

Correctness of Replicate+Shard is already verified by existing hsdp tests.
These PP tests specifically validate that asymmetric construct_shard_mesh
calls across PP stages don't deadlock.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

Files changed (2) hide show

test/test_muon.py +4 -45
test/test_muon_moe.py +5 -42

test/test_muon.py CHANGED Viewed

@@ -435,17 +435,13 @@ def test_pp_dp_replicate_no_deadlock(init_dist):
     muon_params = []
     muon_names = []
-    full_params_snapshot = []
-    full_grads = []
     for i in range(num_params):
         full = torch.randn(32, 64, device="cuda")
-        full_params_snapshot.append(full.clone())
         dt = distribute_tensor(full, stage_mesh, placements)
         p = torch.nn.Parameter(dt)
-        grad_full = torch.randn(32, 64, device="cuda")
-        full_grads.append(grad_full.clone())
-        p.grad = distribute_tensor(grad_full, stage_mesh, placements)
         muon_params.append(p)
         muon_names.append(f"stage{pp_rank}.layer.{i}.weight")
@@ -467,47 +463,10 @@ def test_pp_dp_replicate_no_deadlock(init_dist):
     # Second step to verify cached path
     for p in muon_params:
-        grad_full = torch.randn(32, 64, device="cuda")
-        p.grad = distribute_tensor(grad_full, stage_mesh, placements)
     optim.step()
-    # Correctness: compare against sequential baseline
-    seq_params = []
-    for fp, fg in zip(full_params_snapshot, full_grads):
-        p = torch.nn.Parameter(fp.clone())
-        p.grad = fg.clone()
-        seq_params.append(p)
-    param_groups_seq = [{
-        "params":
-        seq_params,
-        "names":
-        [f"stage{pp_rank}.layer.{i}.weight" for i in range(num_params)],
-        "use_muon":
-        True,
-        "lr":
-        0.02,
-        "weight_decay":
-        0.01,
-        "momentum":
-        0.95,
-        "nesterov":
-        True,
-        "ns_steps":
-        5,
-        "none_grad":
-        False,
-    }]
-    optim_seq = Muon(params=param_groups_seq)
-    optim_seq.step()
-    for i in range(num_params):
-        par_full = muon_params[i].data.full_tensor()
-        torch.testing.assert_close(par_full,
-                                   seq_params[i].data,
-                                   atol=0,
-                                   rtol=0)
     set_ns_compile(True)
     logger.info(
         "test_pp_dp_replicate_no_deadlock PASSED (rank %d, pp_rank %d)", rank,

     muon_params = []
     muon_names = []
     for i in range(num_params):
         full = torch.randn(32, 64, device="cuda")
         dt = distribute_tensor(full, stage_mesh, placements)
         p = torch.nn.Parameter(dt)
+        p.grad = distribute_tensor(torch.randn(32, 64, device="cuda"),
+                                   stage_mesh, placements)
         muon_params.append(p)
         muon_names.append(f"stage{pp_rank}.layer.{i}.weight")
     # Second step to verify cached path
     for p in muon_params:
+        p.grad = distribute_tensor(torch.randn(32, 64, device="cuda"),
+                                   stage_mesh, placements)
     optim.step()
     set_ns_compile(True)
     logger.info(
         "test_pp_dp_replicate_no_deadlock PASSED (rank %d, pp_rank %d)", rank,

test/test_muon_moe.py CHANGED Viewed

@@ -442,30 +442,23 @@ def test_pp_dp_replicate_moe_no_deadlock(init_dist):
     muon_params = []
     muon_names = []
-    full_params_snapshot = []
-    full_grads = []
     # Non-expert 2D DTensor params (both stages, different counts)
     num_dense = 2 if pp_rank == 0 else 3
     for i in range(num_dense):
         full = torch.randn(32, 64, device="cuda")
-        full_params_snapshot.append(full.clone())
         dt = distribute_tensor(full, stage_mesh, placements)
         p = torch.nn.Parameter(dt)
-        g = torch.randn(32, 64, device="cuda")
-        full_grads.append(g.clone())
-        p.grad = distribute_tensor(g, stage_mesh, placements)
         muon_params.append(p)
         muon_names.append(f"stage{pp_rank}.layers.{i}.weight")
     # Stage 1 only: 3D expert plain-tensor params
     if pp_rank == 1:
         full = torch.randn(num_experts, 32, 64, device="cuda")
-        full_params_snapshot.append(full.clone())
         p = torch.nn.Parameter(full)
-        g = torch.randn(num_experts, 32, 64, device="cuda")
-        full_grads.append(g.clone())
-        p.grad = g
         muon_params.append(p)
         muon_names.append(
             f"stage{pp_rank}.layers.{num_dense}.experts.w1.weight")
@@ -492,42 +485,12 @@ def test_pp_dp_replicate_moe_no_deadlock(init_dist):
     # Second step to verify cached path
     for p in muon_params:
         if isinstance(p.data, DTensor):
-            g = torch.randn(32, 64, device="cuda")
-            p.grad = distribute_tensor(g, stage_mesh, placements)
         else:
             p.grad = torch.randn_like(p.data)
     optim.step()
-    # Correctness: compare against sequential baseline
-    seq_params = []
-    for fp in full_params_snapshot:
-        seq_params.append(torch.nn.Parameter(fp.clone()))
-    for p, g in zip(seq_params, full_grads):
-        p.grad = g.clone()
-    param_groups_seq = [{
-        "params": seq_params,
-        "names": list(muon_names),
-        "use_muon": True,
-        "lr": 0.02,
-        "weight_decay": 0.01,
-        "momentum": 0.95,
-        "nesterov": True,
-        "ns_steps": 5,
-        "none_grad": False,
-    }]
-    optim_seq = Muon(params=param_groups_seq, expert_keys=["experts"])
-    optim_seq.step()
-    for i in range(len(muon_params)):
-        par_data = muon_params[i].data
-        if isinstance(par_data, DTensor):
-            par_data = par_data.full_tensor()
-        torch.testing.assert_close(par_data,
-                                   seq_params[i].data,
-                                   atol=0,
-                                   rtol=0)
     set_ns_compile(True)
     logger.info(
         "test_pp_dp_replicate_moe_no_deadlock PASSED (rank %d, pp_rank %d)",

     muon_params = []
     muon_names = []
     # Non-expert 2D DTensor params (both stages, different counts)
     num_dense = 2 if pp_rank == 0 else 3
     for i in range(num_dense):
         full = torch.randn(32, 64, device="cuda")
         dt = distribute_tensor(full, stage_mesh, placements)
         p = torch.nn.Parameter(dt)
+        p.grad = distribute_tensor(torch.randn(32, 64, device="cuda"),
+                                   stage_mesh, placements)
         muon_params.append(p)
         muon_names.append(f"stage{pp_rank}.layers.{i}.weight")
     # Stage 1 only: 3D expert plain-tensor params
     if pp_rank == 1:
         full = torch.randn(num_experts, 32, 64, device="cuda")
         p = torch.nn.Parameter(full)
+        p.grad = torch.randn(num_experts, 32, 64, device="cuda")
         muon_params.append(p)
         muon_names.append(
             f"stage{pp_rank}.layers.{num_dense}.experts.w1.weight")
     # Second step to verify cached path
     for p in muon_params:
         if isinstance(p.data, DTensor):
+            p.grad = distribute_tensor(torch.randn(32, 64, device="cuda"),
+                                       stage_mesh, placements)
         else:
             p.grad = torch.randn_like(p.data)
     optim.step()
     set_ns_compile(True)
     logger.info(
         "test_pp_dp_replicate_moe_no_deadlock PASSED (rank %d, pp_rank %d)",