Add correctness verification to PP tests using fully_shard [skip-build]

Use fully_shard (proven HSDP pattern) instead of manual distribute_tensor
to create proper DTensors. Verify parallel results match sequential
baseline with atol=0, rtol=0.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

Files changed (2) hide show

test/test_muon.py +72 -25
test/test_muon_moe.py +95 -30

test/test_muon.py CHANGED Viewed

@@ -396,16 +396,19 @@ def test_parallel_muon_uneven_shard(init_dist, uneven_dim):
 def test_pp_dp_replicate_no_deadlock(init_dist):
     """Regression: PP-like setup where different rank subsets call
     construct_shard_mesh for different parameters must not deadlock.
     Simulates PP=2 with dp_replicate=2, dp_shard=2. Each PP stage has
-    4 ranks with a (2,2) mesh and [Replicate, Shard(0)] placements.
-    Stages create different numbers of parameters, forcing
     construct_shard_mesh to be called independently per stage.
     Without use_local_synchronization=True in dist.new_group(),
     this would deadlock.
     """
     from optimizer.distributed.utils import _ranks_to_dist_cache
     from optimizer.newton_schulz import set_ns_compile
     rank = dist.get_rank()
     world_size = dist.get_world_size()
@@ -423,28 +426,47 @@ def test_pp_dp_replicate_no_deadlock(init_dist):
         mesh_dim_names=("pp", "dp_replicate", "dp_shard"),
     )
-    # Per-stage submesh (shape (2,2), 4 ranks each)
     stage_mesh = full_mesh["dp_replicate", "dp_shard"]
     pp_rank = full_mesh.get_local_rank("pp")
-    torch.manual_seed(42 + pp_rank)
-    # Asymmetric param counts: stage 0 gets 3, stage 1 gets 5
-    num_params = 3 if pp_rank == 0 else 5
-    placements = [Replicate(), Shard(0)]
-    muon_params = []
-    muon_names = []
-    for i in range(num_params):
-        full = torch.randn(32, 64, device="cuda")
-        dt = distribute_tensor(full, stage_mesh, placements)
-        p = torch.nn.Parameter(dt)
-        p.grad = distribute_tensor(torch.randn(32, 64, device="cuda"),
-                                   stage_mesh, placements)
-        muon_params.append(p)
-        muon_names.append(f"stage{pp_rank}.layer.{i}.weight")
     param_groups = [{
         "params": muon_params,
         "names": muon_names,
@@ -456,16 +478,41 @@ def test_pp_dp_replicate_no_deadlock(init_dist):
         "ns_steps": 5,
         "none_grad": False,
     }]
-    # Must not deadlock
     optim = Muon(params=param_groups, chunk_size=1, warmup_step=0)
     optim.step()
-    # Second step to verify cached path
-    for p in muon_params:
-        p.grad = distribute_tensor(torch.randn(32, 64, device="cuda"),
-                                   stage_mesh, placements)
-    optim.step()
     set_ns_compile(True)
     logger.info(

 def test_pp_dp_replicate_no_deadlock(init_dist):
     """Regression: PP-like setup where different rank subsets call
     construct_shard_mesh for different parameters must not deadlock.
+    Also verifies correctness (atol=0, rtol=0) against sequential baseline.
     Simulates PP=2 with dp_replicate=2, dp_shard=2. Each PP stage has
+    4 ranks with a (2,2) mesh and [Replicate, Shard(0)] placements
+    (created via fully_shard, matching the real HSDP pattern).
+    Stages create different numbers of layers, forcing
     construct_shard_mesh to be called independently per stage.
     Without use_local_synchronization=True in dist.new_group(),
     this would deadlock.
     """
     from optimizer.distributed.utils import _ranks_to_dist_cache
     from optimizer.newton_schulz import set_ns_compile
+    from torch.distributed.fsdp import fully_shard
     rank = dist.get_rank()
     world_size = dist.get_world_size()
         mesh_dim_names=("pp", "dp_replicate", "dp_shard"),
     )
     stage_mesh = full_mesh["dp_replicate", "dp_shard"]
     pp_rank = full_mesh.get_local_rank("pp")
+    # Asymmetric layer counts per stage (mimics PP)
+    num_layers = 3 if pp_rank == 0 else 5
+    hidden = 64
+    # Same seed per stage so all ranks in a stage get identical init weights
+    torch.manual_seed(42 + pp_rank)
+    # Create model and save initial state for sequential baseline
+    model = torch.nn.Sequential(*[
+        torch.nn.Linear(hidden, hidden, bias=False) for _ in range(num_layers)
+    ]).cuda()
+    init_state = {n: p.data.clone() for n, p in model.named_parameters()}
+    grads = {n: torch.randn_like(p) for n, p in model.named_parameters()}
+    # Apply FSDP (creates proper DTensors with [Replicate, Shard(0)])
+    for layer in model:
+        fully_shard(layer, mesh=stage_mesh)
+    fully_shard(model, mesh=stage_mesh)
+    model.reshard()
+    # Apply grads with proper DTensor redistribution
+    for n, p in model.named_parameters():
+        g = grads[n]
+        if isinstance(p.data, DTensor):
+            ug = DTensor.from_local(
+                g,
+                device_mesh=p.data.device_mesh,
+                placements=[Replicate()] * p.data.device_mesh.ndim,
+            )
+            p.grad = ug.redistribute(device_mesh=p.data.device_mesh,
+                                     placements=p.data.placements)
+        else:
+            p.grad = g
+    # Parallel Muon step — must not deadlock
+    muon_names = [n for n, _ in model.named_parameters()]
+    muon_params = [p for _, p in model.named_parameters()]
     param_groups = [{
         "params": muon_params,
         "names": muon_names,
         "ns_steps": 5,
         "none_grad": False,
     }]
     optim = Muon(params=param_groups, chunk_size=1, warmup_step=0)
     optim.step()
+    # Sequential baseline (base path, no sharding)
+    torch.manual_seed(42 + pp_rank)
+    model_seq = torch.nn.Sequential(*[
+        torch.nn.Linear(hidden, hidden, bias=False) for _ in range(num_layers)
+    ]).cuda()
+    for n, p in model_seq.named_parameters():
+        p.grad = grads[n].clone()
+    seq_names = [n for n, _ in model_seq.named_parameters()]
+    seq_params = [p for _, p in model_seq.named_parameters()]
+    param_groups_seq = [{
+        "params": seq_params,
+        "names": seq_names,
+        "use_muon": True,
+        "lr": 0.02,
+        "weight_decay": 0.01,
+        "momentum": 0.95,
+        "nesterov": True,
+        "ns_steps": 5,
+        "none_grad": False,
+    }]
+    optim_seq = Muon(params=param_groups_seq)
+    optim_seq.step()
+    # Correctness: parallel must match sequential exactly
+    for (n_par, p_par), (n_seq, p_seq) in zip(model.named_parameters(),
+                                              model_seq.named_parameters()):
+        par_data = p_par.data
+        if isinstance(par_data, DTensor):
+            par_data = par_data.full_tensor()
+        torch.testing.assert_close(par_data, p_seq.data, atol=0, rtol=0)
     set_ns_compile(True)
     logger.info(

test/test_muon_moe.py CHANGED Viewed

@@ -407,14 +407,16 @@ def test_parallel_muon_moe_uneven_shard(init_dist, uneven_dim):
 def test_pp_dp_replicate_moe_no_deadlock(init_dist):
     """Regression: PP-like MoE setup where different stages have different
     parameter types must not deadlock in construct_shard_mesh.
     Simulates PP=2 with dp_replicate=2, dp_shard=2. Stage 0 has only
-    non-expert 2D DTensor params; stage 1 has non-expert 2D DTensor params
     plus 3D expert plain-tensor params. This mirrors real PP+MoE where
     expert layers exist only in certain stages.
     """
     from optimizer.distributed.utils import _ranks_to_dist_cache
     from optimizer.newton_schulz import set_ns_compile
     rank = dist.get_rank()
     world_size = dist.get_world_size()
@@ -435,33 +437,57 @@ def test_pp_dp_replicate_moe_no_deadlock(init_dist):
     stage_mesh = full_mesh["dp_replicate", "dp_shard"]
     pp_rank = full_mesh.get_local_rank("pp")
     torch.manual_seed(42 + pp_rank)
-    placements = [Replicate(), Shard(0)]
-    num_experts = 4
-    muon_params = []
-    muon_names = []
-    # Non-expert 2D DTensor params (both stages, different counts)
-    num_dense = 2 if pp_rank == 0 else 3
-    for i in range(num_dense):
-        full = torch.randn(32, 64, device="cuda")
-        dt = distribute_tensor(full, stage_mesh, placements)
-        p = torch.nn.Parameter(dt)
-        p.grad = distribute_tensor(torch.randn(32, 64, device="cuda"),
-                                   stage_mesh, placements)
-        muon_params.append(p)
-        muon_names.append(f"stage{pp_rank}.layers.{i}.weight")
-    # Stage 1 only: 3D expert plain-tensor params
     if pp_rank == 1:
-        full = torch.randn(num_experts, 32, 64, device="cuda")
-        p = torch.nn.Parameter(full)
-        p.grad = torch.randn(num_experts, 32, 64, device="cuda")
-        muon_params.append(p)
-        muon_names.append(
-            f"stage{pp_rank}.layers.{num_dense}.experts.w1.weight")
     param_groups = [{
         "params": muon_params,
@@ -482,14 +508,53 @@ def test_pp_dp_replicate_moe_no_deadlock(init_dist):
                  expert_keys=["experts"])
     optim.step()
-    # Second step to verify cached path
-    for p in muon_params:
-        if isinstance(p.data, DTensor):
-            p.grad = distribute_tensor(torch.randn(32, 64, device="cuda"),
-                                       stage_mesh, placements)
-        else:
-            p.grad = torch.randn_like(p.data)
-    optim.step()
     set_ns_compile(True)
     logger.info(

 def test_pp_dp_replicate_moe_no_deadlock(init_dist):
     """Regression: PP-like MoE setup where different stages have different
     parameter types must not deadlock in construct_shard_mesh.
+    Also verifies correctness (atol=0, rtol=0) against sequential baseline.
     Simulates PP=2 with dp_replicate=2, dp_shard=2. Stage 0 has only
+    non-expert 2D FSDP-sharded params; stage 1 has 2D FSDP-sharded params
     plus 3D expert plain-tensor params. This mirrors real PP+MoE where
     expert layers exist only in certain stages.
     """
     from optimizer.distributed.utils import _ranks_to_dist_cache
     from optimizer.newton_schulz import set_ns_compile
+    from torch.distributed.fsdp import fully_shard
     rank = dist.get_rank()
     world_size = dist.get_world_size()
     stage_mesh = full_mesh["dp_replicate", "dp_shard"]
     pp_rank = full_mesh.get_local_rank("pp")
+    num_dense = 2 if pp_rank == 0 else 3
+    num_experts = 4
+    hidden = 64
     torch.manual_seed(42 + pp_rank)
+    # Create model with dense layers (+ expert param for stage 1)
+    model = torch.nn.Sequential(*[
+        torch.nn.Linear(hidden, hidden, bias=False) for _ in range(num_dense)
+    ]).cuda()
+    # Save init state and grads for sequential baseline
+    init_state = {n: p.data.clone() for n, p in model.named_parameters()}
+    dense_grads = {n: torch.randn_like(p) for n, p in model.named_parameters()}
+    # Expert param (stage 1 only, plain tensor — not FSDP-sharded)
+    expert_data = None
+    expert_grad = None
+    if pp_rank == 1:
+        expert_data = torch.randn(num_experts, hidden, hidden, device="cuda")
+        expert_grad = torch.randn(num_experts, hidden, hidden, device="cuda")
+    # Apply FSDP to dense layers
+    for layer in model:
+        fully_shard(layer, mesh=stage_mesh)
+    fully_shard(model, mesh=stage_mesh)
+    model.reshard()
+    # Apply dense grads with DTensor redistribution
+    for n, p in model.named_parameters():
+        g = dense_grads[n]
+        if isinstance(p.data, DTensor):
+            ug = DTensor.from_local(
+                g,
+                device_mesh=p.data.device_mesh,
+                placements=[Replicate()] * p.data.device_mesh.ndim,
+            )
+            p.grad = ug.redistribute(device_mesh=p.data.device_mesh,
+                                     placements=p.data.placements)
+        else:
+            p.grad = g
+    # Build param groups: dense (FSDP DTensors) + expert (plain tensor)
+    muon_names = [n for n, _ in model.named_parameters()]
+    muon_params = list(model.parameters())
     if pp_rank == 1:
+        expert_p = torch.nn.Parameter(expert_data.clone())
+        expert_p.grad = expert_grad.clone()
+        muon_params.append(expert_p)
+        muon_names.append("experts.w1.weight")
     param_groups = [{
         "params": muon_params,
                  expert_keys=["experts"])
     optim.step()
+    # Sequential baseline
+    torch.manual_seed(42 + pp_rank)
+    model_seq = torch.nn.Sequential(*[
+        torch.nn.Linear(hidden, hidden, bias=False) for _ in range(num_dense)
+    ]).cuda()
+    seq_names = [n for n, _ in model_seq.named_parameters()]
+    seq_params = list(model_seq.parameters())
+    for n, p in model_seq.named_parameters():
+        p.grad = dense_grads[n].clone()
+    if pp_rank == 1:
+        expert_p_seq = torch.nn.Parameter(expert_data.clone())
+        expert_p_seq.grad = expert_grad.clone()
+        seq_params.append(expert_p_seq)
+        seq_names.append("experts.w1.weight")
+    param_groups_seq = [{
+        "params": seq_params,
+        "names": seq_names,
+        "use_muon": True,
+        "lr": 0.02,
+        "weight_decay": 0.01,
+        "momentum": 0.95,
+        "nesterov": True,
+        "ns_steps": 5,
+        "none_grad": False,
+    }]
+    optim_seq = Muon(params=param_groups_seq, expert_keys=["experts"])
+    optim_seq.step()
+    # Correctness: parallel must match sequential exactly
+    # Dense params
+    for (n_par, p_par), (n_seq, p_seq) in zip(model.named_parameters(),
+                                              model_seq.named_parameters()):
+        par_data = p_par.data
+        if isinstance(par_data, DTensor):
+            par_data = par_data.full_tensor()
+        torch.testing.assert_close(par_data, p_seq.data, atol=0, rtol=0)
+    # Expert params (stage 1 only)
+    if pp_rank == 1:
+        torch.testing.assert_close(muon_params[-1].data,
+                                   seq_params[-1].data,
+                                   atol=0,
+                                   rtol=0)
     set_ns_compile(True)
     logger.info(